CN109635294A - 基于单语义的未登录词处理方法、智能问答方法及装置 - Google Patents
基于单语义的未登录词处理方法、智能问答方法及装置 Download PDFInfo
- Publication number
- CN109635294A CN109635294A CN201811497280.6A CN201811497280A CN109635294A CN 109635294 A CN109635294 A CN 109635294A CN 201811497280 A CN201811497280 A CN 201811497280A CN 109635294 A CN109635294 A CN 109635294A
- Authority
- CN
- China
- Prior art keywords
- word
- semantic
- semanteme
- unregistered word
- term vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 205
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 46
- 230000008447 perception Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 25
- 235000013399 edible fruits Nutrition 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000013136 deep learning model Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 208000010086 Hypertelorism Diseases 0.000 description 1
- 206010020771 Hypertelorism of orbit Diseases 0.000 description 1
- 240000000233 Melia azedarach Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种基于单语义的未登录词处理方法、智能问答方法及装置。其中,未登录词的处理方法包括:获取未登录词的至少一个语义,每个语义包括至少一个义原;从所述未登录词的语义中选择一个基准语义;根据所述基准语义生成未登录词的语义向量;根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。从而,通过本申请提供的技术方案生成的仿真词向量既能表达出未登录词的语义,又由于进行了随机化处理而具有随机多变性,因此,本申请实施例生成的随机词向量在用于智能问答系统生成应答时,能够使应答与问题的关联度高,并且能够使应答具有多样性,从而,避免出现重复而单调的应答,提高用户好感度,解决了未登录词问题。
Description
本申请要求在2018年6月1日提交中国专利局、申请号为201810558803.7、发明名称为“基于单语义的未登录词处理方法、智能问答方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种基于单语义的未登录词处理方法、智能问答方法及装置。
背景技术
随着自然语言处理技术的发展,基于自然语言处理技术建立起来的智能问答系统也得到了广泛的应用,常用的智能问答系统例如聊天机器人,能够根据用户输入的聊天内容,自动生成相应地应答。
现有技术中,智能问答系统根据不同的应答方法可分为基于知识库的检索式智能问答系统和基于深度学习模型的生成式智能问答系统。其中,基于深度学习模型的智能问答系统,通过建立一个基于RNN(递归神经网络:Recurrent Neural Networks)的对话模型,并使用该模型进行大量的语料训练,使对话模型能够从问答对中学习到对未知对话的潜在应答模式,从而其回答内容不仅局限于训练语料中已有的知识。
基于深度学习模型的智能问答系统在进行语料训练和语料应答时,以词向量为操作对象,词向量是对语料中分词的一种数学化的表达形式。词向量在深度学习中的贡献是:通过将两个词向量计算余弦夹角或欧氏距离,能够得到两个分词的距离,两个分词的距离越小,表示两个分词的相似度越高。在智能问答系统的训练过程中,会根据训练语料生成包含已知分词词向量的词向量空间;在智能问答系统的应答过程中,根据问题分词的词向量与已知分词的词向量之间的距离,并结合机器学习的算法生成问题的应答内容。
但是,基于语料训练得到的词向量空间对于专业领域的业务术语、方言词汇、外文、组合词的包含能力较差,因此,在问题内容不受限的开放式智能问答系统中,智能问答系统经常会遇到未登录词(OOV:out-of-vocabulary),未登录词也称集外词,是指词向量空间中未包含的分词。当智能问答系统遇到包含未登录词的问题时,其给出应答内容的准确率就会下降,这种情况被称为未登录词(OOV)问题。目前,现有技术对未登录词问题缺乏有效的解决办法。
发明内容
本申请实施例提供了一种基于单语义的未登录词处理方法、智能问答方法及装置,以解决现有技术中存在的问题。
第一方面,本申请实施例提供了一种基于单语义的未登录词处理方法,包括:
获取未登录词的至少一个语义,每个语义包括至少一个义原;
从所述未登录词的语义中选择一个基准语义;
根据所述基准语义生成未登录词的语义向量;
根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。
第二方面,本申请实施例提供了一种智能问答方法,应用于本申请实施例提供的基于单语义的未登录词处理方法,包括:
从未知问题的分词结果中获取未登录词;
基于所述未登录词的单语义,生成所述未登录词的仿真词向量;
根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。
第三方面,本申请实施例提供了一种基于单语义的未登录词处理装置,包括:
语义获取单元,用于获取未登录词的至少一个语义,每个语义包括至少一个义原;
基准语义选择单元,用于从所述未登录词的语义中选择一个基准语义;
语义向量生成单元,用于根据所述基准语义生成未登录词的语义向量;
仿真词向量生成单元,用于根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。
第四方面,本申请实施例提供了一种智能问答装置,包括:
未登录词获取单元,用于从未知问题的分词结果中获取未登录词;
未登录词处理单元,用于基于所述未登录词的单语义,生成所述未登录词的仿真词向量;
作答单元,用于根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。
由以上技术方案可知,本申请实施例提供了一种基于单语义的未登录词处理方法、智能问答方法及装置。其中,未登录词的处理方法包括:获取未登录词的至少一个语义,每个语义包括至少一个义原;从所述未登录词的语义中选择一个基准语义;根据所述基准语义生成未登录词的语义向量;根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。从而,通过本申请提供的技术方案生成的仿真词向量既能表达出未登录词的语义,又由于进行了随机化处理而具有随机多变性,因此,本申请实施例生成的随机词向量在用于智能问答系统生成应答时,能够使应答与问题的关联度高,提高应答准确率,又能够使应答具有多样性,从而,避免出现重复而单调的应答,极大地提高用户好感度,解决了现有技术中的未登录词问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于单语义的未登录词处理方法的流程图;
图2为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S120的流程图;
图3为本申请实施例提供的另一种基于单语义的未登录词处理方法步骤S120的流程图;
图4为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S125的流程图;
图5为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S126的流程图;
图6为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S130的流程图;
图7为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S140的流程图;
图8为本申请实施例提供的一种智能问答方法的流程图;
图9为本申请实施例提供的一种基于单语义的未登录词处理装置框图;
图10为本申请实施例提供的一种智能问答装置框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
基于深度学习模型的智能问答系统在进行语料训练和语料应答时,以词向量为操作对象,词向量是对语料中分词的一种数学化的表达形式。词向量在深度学习中的贡献是:通过将两个词向量计算余弦夹角或欧氏距离,能够得到两个分词的距离,两个分词的距离越小,表示两个分词的相似度越高。
在自然语言处理技术领域,一种词向量是One-Hot Representation型,这种词向量根据分词词典中已知分词的数量来确定词向量的维度,其中,词向量中的每个维度代表分词词典中的一个分词,因此,在one-hot representation型的词向量中,只有一个维度的数值为1,其余维度均为0。由于,在一个分词词典中已知分词的数量通常很多,因此,One-Hot Representation型的词向量维度非常高。但是,高维度的词向量在运用到深度学习领域中时,容易受到维度灾难的困扰,并且,由于这种词向量中每个分词独立拥有一个维度,因此很难反映出两个词之间的相似性,不适用于深度学习模型。
因此,在基于深度学习模型的智能问答系统中,通常使用的是另一种词向量:Distributed Representation。这种词向量是通过语料训练将每个分词映射成一种固定长度的低维实数向量,将所有Distributed Representation型的词向量放在一起会形成一个词向量空间,在词向量空间中,每个词向量对应词向量空间的一个点,例如,某个词向量为:[0.792,-0.177,-0.107,0.109,…]。在词向量空间中,两个点之间的距离就代表了两个分词之间的相似度,可用两个词向量之间的余弦夹角和欧式距离表示。基于DistributedRepresentation型词向量的特性,本申请中的词向量优选Distributed Representation型。
现有技术中,受语料数量和内容丰富程度的限制,词向量空间对专业领域的业务术语、方言词汇、外文、组合词的包含能力较差,因此,在问题内容不受限的开放式智能问答系统中,智能问答系统经常会遇到未登录词(OOV:out-of-vocabulary),由于未登录词不存在于词向量空间中,当智能问答系统遇到包含未登录词的问题时,无法利用词向量空间进行答案匹配,因此,对包含未登录词的问题不能给出应答。
为了解决现有技术中的未登录词问题,一种方案是:当用户提出的问题包含未登录词时,使用随机生成的方式对未登录词生成一个随机词向量,这个随机词向量能够映射到词向量空间中的一个点,然后用这个随机词向量作为未登录词的词向量进行词向量的匹配,从而对包含未登录词的问题给出应答。这种方案能够解决现有技术的基于深度学习的智能问答系统中对未登录词不能给出应答的问题,但是,由于在这种方案中,未登录词的词向量是随机生成,具有不确定性,因此,虽然能够对包含未登录词的问题进行应答,但是其应答的内容得不到保证,无应答准确性可言,未登录词问题依然没有得到彻底的解决。
实施例一
为了解决现有技术中的未登录词问题,本申请实施例提供了一种基于单语义的未登录词处理方法,参见图1,为本申请实施例提供的一种基于单语义的未登录词处理方法的流程图,所述方法包括以下步骤:
步骤S110,获取未登录词的至少一个语义,每个语义包括至少一个义原;
本申请中,未登录词的语义可以从知网(英文名称为HowNet)中获得,知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。在知网中,义原是最基本的、不易于再分割的意义的最小单位,一个词可以有多个语义,每个语义可以包含多个义原,例如,词的语义及其义原可以用以下形式表示:
其中,每一行列出了一个词的语义和每个语义的义原。其中,在每一行中,第一列表示词本身,第二列表示词的语义的数量,从第二列以后,分别用数字+义原的方式表达出了每个语义中义原的数量和义原的内容。例如:“词”共有6个语义;其中,第1个语义有2个义原:功能词、进展;第2个语义有1个义原:功能词;第3个语义有1个义原:活着;等等。
本申请在步骤S110中获取了未登录词的语义和义原,能够为后续的基于单语义的未登录词的处理提供了可用的处理信息。
步骤S120,从所述未登录词的语义中选择一个基准语义;
在步骤S120中,可通过随机选取的方法从未登录词的语义中选取一个语义作为基准语义。
例如,“和”的语义和义原为:
和 9 1 功能词 1 友善 1 编辑 3 体育 相等 较量 1 柔 1 和谐 1 混合 3 数字 算数 结果 1 唱
可见,“和”共有9个语义,为了从9个语义中随机选取一个语义,可在1-9的范围之间随机生成一个随机整数Z,根据随机整数Z在找到“和”的第Z个语义作为基准语义。
示例地,如果随机整数Z为6,则“和”的基准语义为“和谐”,包含1个义原。
通过随机选取的方式获取的基准语义具有随机性,能够使本申请实施例生成的仿真词向量具有多变性,但随机生成的基准语义有时不能体现未登录词在句子中的原本表达的语义,因此,这种仿真词向量在应用到智能问答系统中时,会导致生成的应答内容多样但有时候准确性有波动。本领域技术人员可权衡多样性与准确性确定是否使用随机方法选择基准语义。
或者,图2为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S120的流程图,如图2所示,在一种可选择的实施方式中,步骤S120可以包括以下步骤:
步骤S121,获取未登录词每个语义的义原数量;
示例地,“和”的9个语义中,义原数量分别为:
语义编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
义原数量 | 1 | 1 | 1 | 3 | 1 | 1 | 1 | 3 | 1 |
步骤S122,将义原数量最多的一个语义作为基准语义。
从“和”的语义和义元数量中可以看出,“和”的第4个语义和第8个语义均包含义原数量最多的3个义原,分别为第4个语义中的“体育”“较量”“相等”,第8个语义中的“数学”“算数”“结果”;当遇到义原数量最多的语义不唯一时,本申请根据语义的排列顺序,即语义编号,选择顺序位于最前的语义作为基准语义,因此,“和”的基准语义为第4个语义。
语义的义原数量多,说明该语义比较丰富,因此将义原数量最多的一个语义作为基准语义,使基准语义比较有代表性。
此外,图3为本申请实施例提供的另一种基于单语义的未登录词处理方法步骤S120的流程图,如图3所示,在另一种可选择的实施方式中,步骤S120可以包括以下步骤:
步骤S125,获取未登录词在句子中的上下词;所述上下词包括未登录词在句子中的至少一个前序分词和至少一个后序分词。
本申请实施例中定义了上下词的概念,在本申请中,上下词包括未登录词在句子中的至少一个前序分词和至少一个后序分词,具体为:在句子中以未登录词为中心,向句子前远离未登录词的方向依次查找至少一个分词,以及,向句子后远离未登录词的方向依次查找至少一个分词。
图4为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S125的流程图;
如图4所示,在一种可选择的方式中,步骤S125可以包括以下步骤:
步骤S1251,设置用于约束所述上下词数量的取词窗口值C,C为整数且大于等于1;
本申请实施例中,定义了取值窗口C,取值窗口C用于约束上下词的数量,当句子中位于未登录词前方和后方的分词数量均大于C时,上下词的数量为2C。
步骤S1252,根据所述取词窗口值C,从包含所述未登录词的句子的分词中获取所述上下词;
其中,所述上下词包括句子中位于所述未登录词前序的C个分词和后序的C个分词。
示例地,设置取词窗口值C=1;包含未登录词的句子为:我想买一个苹果电脑;句子中的未登录词为:苹果。
首先获得句子中的所有分词,即:我想买一个苹果电脑
由于,取词窗口值C=1,因此,上下词为未登录词在句子中的前一个分词和后一个分词,即:一个、电脑。
示例地,设置取词窗口值C=2,包含未登录词的句子为:我想买一个苹果电脑;句子中的未登录词为:苹果。
首先获得句子中的所有分词,即:我想买一个苹果电脑
由于,取词窗口值C=2,因此,上下词为未登录词在句子中的前两个分词和后两个分词。但是,在句子中,未登录词的后方只有一个分词,对于这种情况,本申请在获取上下词时,如果向前或向后获取到句子的开头或结尾,则停止继续获取。因此,当取词窗口值C=2,从句子中获取的“苹果”的上下词为:想买、一个、电脑。
步骤S126,分别获取所述上下词与每个语义的距离。
图5为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S126的流程图;
如图5所示,在一种可选择的实施方式中,步骤S126可以包括以下步骤:
步骤S1261,获取所述上下词的每个分词与每个语义中每个义原的欧式距离;
示例地,“苹果”的语义和义原为:
苹果 3 5 携带 样式值 特定牌子 电脑 能 1 水果 3 树 水果 生殖
取值窗口值C=1时,“苹果”的上下词共包含以下分词:一个、电脑。
获取上下词“一个”与第一个语义中每个义原的欧式距离,以D(语义,义原)表示,分别为:
D(一个,携带)、D(一个,样式值)、D(一个,样式值)、D(一个,电脑)、D(一个,能)
获取上下词“电脑”与第一个语义中每个义原的欧式距离,以D(语义,义原)表示,分别为:
D(电脑,携带)、D(电脑,样式值)、D(电脑,样式值)、D(电脑,电脑)、D(电脑,能)
获取上下词“一个”与第二个语义中每个义原的欧式距离,以D(语义,义原)表示,分别为:
D(一个,水果)
获取上下词“电脑”与第二个语义中每个义原的欧式距离,以D(语义,义原)表示,分别为:
D(电脑,水果)
获取上下词“一个”与第三个语义中每个义原的欧式距离,以D(语义,义原)表示,分别为:
D(一个,树)、D(一个,水果)、D(一个,生殖)
获取上下词“电脑”与第三个语义中每个义原的欧式距离,以D(语义,义原)表示,分别为:
D(电脑,树)、D(电脑,水果)、D(电脑,生殖)
步骤S1262,根据所述欧式距离,获取所述上下词的每个分词与每个语义的距离DA;
本申请实施例中,距离DA为上下词的每个分词与每个语义的所有义原的欧式距离的平均值。
示例地,“苹果”的上下词的数量为2,“苹果”的语义数量为3,因此共能够得到6(2×3)个距离DA:
DA(一个,语义1)=[D(一个,携带)+D(一个,样式值)+D(一个,样式值)+D(一个,电脑)+D(一个,能)]÷5
DA(电脑,语义1)=[D(电脑,携带)+D(电脑,样式值)+D(电脑,样式值)+D(电脑,电脑)+D(电脑,能)]÷5
DA(一个,语义2)=D(一个,水果)
DA(电脑,语义2)=D(电脑,水果)
DA(一个,语义3)=[D(一个,树)+D(一个,水果)+D(一个,生殖)]÷3
DA(电脑,语义3)=[D(电脑,树)+D(电脑,水果)+D(电脑,生殖)]÷3
步骤S1263,根据所述距离DA,获取所述上下词与每个语义的距离。
本申请实施例中,上下词包括多个分词,因此上下词与每个语义的距离,就是这些分词与每个语义的距离DA的平均值。
示例地:
上下词与第一个语义的距离D1=[DA(一个,语义1)+DA(电脑,语义1)]÷2
上下词与第二个语义的距离D2=[DA(一个,语义2)+DA(电脑,语义2)]÷2
上下词与第三个语义的距离D3=[DA(一个,语义3)+DA(电脑,语义3)]÷2
步骤S127,将与所述上下词的距离最小的语义作为所述基准语义。
在本申请实施例中,步骤S127能够得到多个距离的值,例如D1、D2、D3;在步骤S127中,从所有得到的距离中选择一个最小值对应的语义作为基准语义。
步骤S125-S127结合了未登录词在句子中的上下词来选择语义,能够使选取的基准语义与未登录词的上下词具有最强的语义关联,使选取的基准语义符合未登录词在句子中的真实语义,从而,使用这种基准语义在智能问答系统中生成的应答与问题的关联性强。
步骤S130,根据所述基准语义生成未登录词的语义向量;
本申请实施例中,将基准语义作为未登录词在句子中的语义,生成未登录词的语义向量。
图6为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S130的流程图;
如图6所示,在一种可选择的实施方式中,步骤S130可以包括以下步骤:
步骤S131,获取所述基准语义中每个义原的义原词向量;
示例地,在步骤S120中获取的“苹果”的第一个语义为基准语义,该基准语义中工包含5个义原,因此,在步骤S131中能够获取到5个义原词向量T1~T5。
步骤S132,根据所述基准语义中义原的数量,对所述基准语义中的每个义原设置义原权重;
本申请实施例中,义原权重的大小根据基准语义中义原的数量确定,义原的数量越多,每个义原分摊到的义原权重就越小,以使义原权重能够体现出对基准语义的贡献程度。
在一种可选择的实施方式中,每个义原的义原权重可以相同,均为义原数量的倒数。
示例地,义原词向量T1~T5均为W,且W=1/5。
步骤S133,根据所述义原权重,对所述义原词向量进行加权求和,生成所述基准语义的语义向量。
步骤S133使用以下公式:
其中,T为基准语义的语义向量,Ti为基准语义的第i个义原的义元向量,Wi为第i个义原的义原权重。
本申请中,Ti可以为Distributed Representation型的低维向量,例如维数m=50或维数m=100。
步骤S140,根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。
本申请在步骤S130中生成了未登录词的语义向量,可用于在智能问答系统中生成对话的应答内容,但是,由于语义向量来自于基准语义的义元向量的加权,当基准语义的义元向量确定时,语义向量也基本确定,缺少多变性,从而导致使用这种语义向量在智能问答系统中生成的应答内容比较单一。因此,为了提高应答内容的多样性,本申请在步骤S140中,根据一个随机生成的与语义向量维度相同的随机词向量对语义向量进行随机化处理,生成多变的仿真词向量。
图7为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S140的流程图;
如图7所示,在一种可选择的实施方式中,步骤S140可以包括以下步骤:
步骤S141,生成与所述语义向量维度相同的随机词向量;
本申请中,随机词向量的维度要与语义向量的维度相同,以适应深度学习算法中Distributed Representation型的低维向量的计算。
示例地,通过以下方式生成一个m维的随机词向量:
首先,在m个维度上随机赋予[-1,1]之间的任意实数值,生成一个m维的向量Tm;
Tm=[R1,R2,R3,……,Rm-1,Rm]
然后,对向量Tm进行归一化处理,得到本申请需要的随机词向量;
由于向量Tm的每个维度的随机值大小不一,向量Tm会分布在m维空间中的任何一个位置,导致有时随机生成的向量Tm与已知的词向量空间的距离过远,影响词向量的分布平衡,最终影响到词向量之间的相似度计算。因此,本申请中对向量Tm进行归一化处理,将向量Tm每个维度的数值限制在一个较小的范围内,防止上述情况发生。
对向量Tm进行归一化处理可通过以下步骤实现:
首先,获取向量Tm的每个维度数值的平方Q1~Qm;
然后,求取Q1~Qm之和的二次方根的值P,作为归一化系数;
最后,将向量Tm的每个维度的数值除以归一化系数P,生成随机词向量。
步骤S142,获取随机词向量的第一权重,以及,获取语义向量的第二权重;
其中,所述第一权重小于所述第二权重,所述第一权重和所述第二权重的数值之和等于1。
在本申请实施例生成的仿真词向量中,第一权重将影响仿真词向量多样性的程度,第二权重影响仿真词向量表达未登录词语义的程度;对于智能问答系统来说,表达未登录词语义的重要性要高于多样性的重要性,从而保证智能问答系统生成应答的准确性,因此,本申请中第一权重小于第二权重。
进一步地,优选第二权重的范围在0.85~0.9之间,优选第一权重的范围在0.1~0.15之间,使语义在仿真词向量中起到主导作用,并兼顾一定的多样性。
步骤S143,根据所述第一权重和所述第二权重,获取所述随机词向量和所述语义向量的加权和作为所述仿真词向量。
在步骤S143中,仿真词向量通过以下公式获得:
Tf=Tr×S1+T×S2
其中,Tf为未登录词的仿真词向量,Tr为随机词向量,T为语义向量,S1为第一权重,S2为第二权重。
从上述公式中可以看出,本申请得到的仿真词向量Tf由两部分组成:第一部分是Tr×S1,即随机词向量的加权,使仿真词向量具有随机多变的特性;第二部分是T×S2,即未登录词的语义向量的加权,使仿真词向量具有能够反映未登录词语义的特性。由于仿真词向量同时具备这两种特性,因此,使用本申请生成的仿真词向量用于智能问答系统时,不仅生成的应答准确率高,与问题的关联度高,而且够灵活多变而具有应答多样性,从而避免出现重复而单调的应答,极大地提高用户好感度。
由以上技术方案可知,本申请实施例提供了一种基于单语义的未登录词处理方法,包括:获取未登录词的至少一个语义,每个语义包括至少一个义原;从所述未登录词的语义中选择一个基准语义;根据所述基准语义生成未登录词的语义向量;根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。从而,本申请实施例生成的仿真词向量既能表达出未登录词的语义,又由于进行了随机化处理而具有随机多变性,因此,本申请实施例生成的随机词向量在用于智能问答系统生成应答时,能够使应答与问题的关联度高,提高应答准确率,又能够使应答具有多样性,从而,避免出现重复而单调的应答,极大地提高用户好感度,解决了现有技术中的未登录词问题。
实施例二
本申请实施例提供了一种智能问答方法,其中,应用了本申请实施例一提供的基于单语义的未登录词处理方法,图8为本申请实施例提供的一种智能问答方法的流程图,如图8所示,所述方法包括以下步骤:
步骤S210,从未知问题的分词结果中获取未登录词;
智能问答系统需要通过训练语料的训练才能具备应答能力,在训练过程中,智能问答系统会根据已知的分词生成用来表达已知分词词向量的词向量空间;当用户向训练后的智能问答系统进行提问时,智能问答系统根据预设的分词切词规则对未知问题进行分词,并根据能够根据分词结果获取到问题中不存在与词向量空间中的未登录词,未登录词由于不存在与词向量空间中,因此,无法匹配到对应的词向量,导致智能问答系统在遇到未登录词时,无法通过匹配到准确的应答。
步骤S220,基于所述未登录词的单语义,生成所述未登录词的仿真词向量;
在步骤S220中,使用本申请实施例一提供的基于单语义的未登录词处理方法对步骤S210获取到的未登录词生成仿真词向量;
步骤S230,根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。
由以上技术方案可知,本申请实施例提供了一种智能问答方法,包括:从未知问题的分词结果中获取未登录词;基于所述未登录词的单语义,生成所述未登录词的仿真词向量;根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。本申请实施例提供的智能问答方法,在遇到未知问题中的未登录词时,基于未登录词的单语义,生成未登录词的仿真词向量,在生成仿真词向量的过程中,应用了本申请提供的基于单语义的未登录词处理方法,使智能问答系统生成应答时,能够使应答与问题的关联度高,又能够使应答具有多样性,从而,避免出现重复而单调的应答,提高用户好感度,解决了未登录词问题。
实施例三
本申请实施例提供了一种基于单语义的未登录词处理装置,图9为本申请实施例提供的一种基于单语义的未登录词处理装置框图,如图9所示,所述装置包括:
语义获取单元310,用于获取未登录词的至少一个语义,每个语义包括至少一个义原;
基准语义选择单元320,用于从所述未登录词的语义中选择一个基准语义;
语义向量生成单元330,用于根据所述基准语义生成未登录词的语义向量;
仿真词向量生成单元340,用于根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。
由以上技术方案可知,本申请实施例提供了一种基于单语义的未登录词处理装置,用于从获取未登录词的至少一个语义,每个语义包括至少一个义原;从所述未登录词的语义中选择一个基准语义;根据所述基准语义生成未登录词的语义向量;根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。从而,本申请实施例生成的仿真词向量既能表达出未登录词的语义,又由于进行了随机化处理而具有随机多变性,因此,本申请实施例生成的随机词向量在用于智能问答系统生成应答时,能够使应答与问题的关联度高,提高应答准确率,又能够使应答具有多样性,从而,避免出现重复而单调的应答,极大地提高用户好感度,解决了现有技术中的未登录词问题。
实施例四
本申请实施例提供了一种智能问答装置,图10为本申请实施例提供的一种智能问答装置框图,如图10所示,所述装置包括:
未登录词获取单元410,用于从未知问题的分词结果中获取未登录词;
未登录词处理单元420,用于基于所述未登录词的单语义,生成所述未登录词的仿真词向量;
作答单元430,用于根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。
由以上技术方案可知,本申请实施例提供了一种智能问答装置,所述装置用于从未知问题的分词结果中获取未登录词;基于所述未登录词的单语义,生成所述未登录词的仿真词向量;根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。本申请实施例提供的智能问答方法,在遇到未知问题中的未登录词时,基于未登录词的单语义,生成未登录词的仿真词向量,在生成仿真词向量的过程中,应用了本申请提供的基于单语义的未登录词处理方法,使智能问答系统生成应答时,能够使应答与问题的关联度高,又能够使应答具有多样性,从而,避免出现重复而单调的应答,提高用户好感度,解决了未登录词问题。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种基于单语义的未登录词处理方法,其特征在于,包括:
获取未登录词的至少一个语义,每个语义包括至少一个义原;
从所述未登录词的语义中选择一个基准语义;
根据所述基准语义生成未登录词的语义向量;
根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。
2.根据权利要求1所述的方法,其特征在于,所述从未登录词的语义中选择一个基准语义的步骤,包括:
获取未登录词每个语义的义原数量;
将义原数量最多的一个语义作为基准语义。
3.根据权利要求1所述的方法,其特征在于,所述从未登录词的语义中选择一个基准语义的步骤,包括:
获取未登录词在句子中的上下词;所述上下词包括未登录词在句子中的至少一个前序分词和至少一个后序分词;
分别获取所述上下词与每个语义的距离;
将与所述上下词的距离最小的语义作为所述基准语义。
4.根据权利要求3所述的方法,其特征在于,所述获取未登录词在句子中的上下词的步骤,包括:
设置用于约束所述上下词数量的取词窗口值C,C为整数且大于等于1;
根据所述取词窗口值C,从包含所述未登录词的句子的分词中获取所述上下词;
其中,所述上下词包括句子中位于所述未登录词前序的C个分词和后序的C个分词。
5.根据权利要求3所述的方法,其特征在于,所述分别获取所述上下词与每个语义的距离的步骤,包括:
获取所述上下词的每个分词与每个语义中每个义原的欧式距离;
根据所述欧式距离,获取所述上下词的每个分词与每个语义的距离DA;
根据所述距离DA,获取所述上下词与每个语义的距离。
6.根据权利要求1所述的方法,其特征在于,所述根据基准语义生成未登录词的语义向量的步骤,包括:
获取所述基准语义中每个义原的义原词向量;
根据所述基准语义中义原的数量,对所述基准语义中的每个义原设置义原权重;
根据所述义原权重,对所述义原词向量进行加权求和,生成所述基准语义的语义向量。
7.根据权利要求1所述的方法,其特征在于,所述使用随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量的步骤,包括:
生成与所述语义向量维度相同的随机词向量;
获取随机词向量的第一权重,以及,获取语义向量的第二权重;
根据所述第一权重和所述第二权重,获取所述随机词向量和所述语义向量的加权和作为所述仿真词向量;
其中,所述第一权重小于所述第二权重,所述第一权重和所述第二权重的数值之和等于1。
8.一种智能问答方法,其特征在于,应用于权利要求1-7任一所述的方法,包括:
从未知问题的分词结果中获取未登录词;
基于所述未登录词的单语义,生成所述未登录词的仿真词向量;
根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。
9.一种基于单语义的未登录词处理装置,其特征在于,包括:
语义获取单元,用于获取未登录词的至少一个语义,每个语义包括至少一个义原;
基准语义选择单元,用于从所述未登录词的语义中选择一个基准语义;
语义向量生成单元,用于根据所述基准语义生成未登录词的语义向量;
仿真词向量生成单元,用于根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。
10.一种智能问答装置,其特征在于,应用于权利要求1-7任一所述的方法,包括:
未登录词获取单元,用于从未知问题的分词结果中获取未登录词;
未登录词处理单元,用于基于所述未登录词的单语义,生成所述未登录词的仿真词向量;
作答单元,用于根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810558803.7A CN108829670A (zh) | 2018-06-01 | 2018-06-01 | 基于单语义的未登录词处理方法、智能问答方法及装置 |
CN2018105588037 | 2018-06-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635294A true CN109635294A (zh) | 2019-04-16 |
CN109635294B CN109635294B (zh) | 2023-07-11 |
Family
ID=64147144
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810558803.7A Pending CN108829670A (zh) | 2018-06-01 | 2018-06-01 | 基于单语义的未登录词处理方法、智能问答方法及装置 |
CN201811497280.6A Active CN109635294B (zh) | 2018-06-01 | 2018-12-07 | 基于单语义的未登录词处理方法、智能问答方法及装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810558803.7A Pending CN108829670A (zh) | 2018-06-01 | 2018-06-01 | 基于单语义的未登录词处理方法、智能问答方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN108829670A (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740163A (zh) * | 2019-01-09 | 2019-05-10 | 安徽省泰岳祥升软件有限公司 | 应用于深度学习模型的语义表示资源生成方法及装置 |
CN109740162B (zh) * | 2019-01-09 | 2023-07-11 | 安徽省泰岳祥升软件有限公司 | 文本表示方法、装置及介质 |
CN110147435B (zh) * | 2019-01-24 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 对话生成方法、装置、设备及存储介质 |
CN111125333B (zh) * | 2019-06-06 | 2022-05-27 | 北京理工大学 | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0944517A (ja) * | 1995-07-31 | 1997-02-14 | Nippon Telegr & Teleph Corp <Ntt> | 語義文並べ換え方法及び装置 |
US20070136246A1 (en) * | 2005-11-30 | 2007-06-14 | At&T Corp. | Answer determination for natural language questioning |
CN107239443A (zh) * | 2017-05-09 | 2017-10-10 | 清华大学 | 一种词向量学习模型的训练方法及服务器 |
CN107608973A (zh) * | 2016-07-12 | 2018-01-19 | 华为技术有限公司 | 一种基于神经网络的翻译方法及装置 |
-
2018
- 2018-06-01 CN CN201810558803.7A patent/CN108829670A/zh active Pending
- 2018-12-07 CN CN201811497280.6A patent/CN109635294B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0944517A (ja) * | 1995-07-31 | 1997-02-14 | Nippon Telegr & Teleph Corp <Ntt> | 語義文並べ換え方法及び装置 |
US20070136246A1 (en) * | 2005-11-30 | 2007-06-14 | At&T Corp. | Answer determination for natural language questioning |
CN107608973A (zh) * | 2016-07-12 | 2018-01-19 | 华为技术有限公司 | 一种基于神经网络的翻译方法及装置 |
CN107239443A (zh) * | 2017-05-09 | 2017-10-10 | 清华大学 | 一种词向量学习模型的训练方法及服务器 |
Non-Patent Citations (1)
Title |
---|
郭鸿奇等: "一种基于词语多原型向量表示的句子相似度计算方法", 《智能计算机与应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108829670A (zh) | 2018-11-16 |
CN109635294B (zh) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562792B (zh) | 一种基于深度学习的问答匹配方法 | |
CN109635294A (zh) | 基于单语义的未登录词处理方法、智能问答方法及装置 | |
CN109614618A (zh) | 基于多语义的集外词处理方法及装置 | |
CN110442718A (zh) | 语句处理方法、装置及服务器和存储介质 | |
CN106844530A (zh) | 一种问答对分类模型的训练方法和装置 | |
CN109992673A (zh) | 一种知识图谱生成方法、装置、设备及可读存储介质 | |
CN109800307A (zh) | 产品评价的分析方法、装置、计算机设备及存储介质 | |
CN112101039B (zh) | 一种面向在线学习社区的学习兴趣发现方法 | |
CN107247753B (zh) | 一种相似用户选取方法及装置 | |
CN109308323A (zh) | 一种因果关系知识库的构建方法、装置及设备 | |
CN109165288B (zh) | 一种多语义监督的词向量训练方法及装置 | |
CN111143539A (zh) | 基于知识图谱的教学领域问答方法 | |
CN113821527A (zh) | 哈希码的生成方法、装置、计算机设备及存储介质 | |
CN114254615A (zh) | 组卷方法、装置、电子设备和存储介质 | |
CN113408301A (zh) | 一种样本处理方法、装置、设备和介质 | |
CN109299459B (zh) | 一种单语义监督的词向量训练方法及装置 | |
Tohidi et al. | Optimizing the performance of Persian multi-objective question answering system | |
CN109271633B (zh) | 一种单语义监督的词向量训练方法及装置 | |
CN104714977A (zh) | 一种实体与知识库项的关联方法及装置 | |
CN113033180A (zh) | 一种面向小学藏语文阅读问题自动生成的服务系统 | |
EL MEZOUARY et al. | An evaluation of learner clustering based on learning styles in MOOC course | |
CN109344319B (zh) | 一种基于集成学习的线上内容热度预测方法 | |
CN104090918B (zh) | 一种基于信息量的句子相似度计算方法 | |
Tenriawaru et al. | A new model of students participation measurement in e-learning systems based on meaningful learning characteristics: An initial investigation | |
US20220300836A1 (en) | Machine Learning Techniques for Generating Visualization Recommendations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |