CN109635294B - 基于单语义的未登录词处理方法、智能问答方法及装置 - Google Patents

基于单语义的未登录词处理方法、智能问答方法及装置 Download PDF

Info

Publication number
CN109635294B
CN109635294B CN201811497280.6A CN201811497280A CN109635294B CN 109635294 B CN109635294 B CN 109635294B CN 201811497280 A CN201811497280 A CN 201811497280A CN 109635294 B CN109635294 B CN 109635294B
Authority
CN
China
Prior art keywords
word
semantic
unregistered
vector
semantics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811497280.6A
Other languages
English (en)
Other versions
CN109635294A (zh
Inventor
杨凯程
李健铨
蒋宏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Taiyue Xiangsheng Software Co ltd
Original Assignee
Anhui Taiyue Xiangsheng Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Taiyue Xiangsheng Software Co ltd filed Critical Anhui Taiyue Xiangsheng Software Co ltd
Publication of CN109635294A publication Critical patent/CN109635294A/zh
Application granted granted Critical
Publication of CN109635294B publication Critical patent/CN109635294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种基于单语义的未登录词处理方法、智能问答方法及装置。其中,未登录词的处理方法包括:获取未登录词的至少一个语义,每个语义包括至少一个义原;从所述未登录词的语义中选择一个基准语义;根据所述基准语义生成未登录词的语义向量;根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。从而,通过本申请提供的技术方案生成的仿真词向量既能表达出未登录词的语义,又由于进行了随机化处理而具有随机多变性,因此,本申请实施例生成的随机词向量在用于智能问答系统生成应答时,能够使应答与问题的关联度高,并且能够使应答具有多样性,从而,避免出现重复而单调的应答,提高用户好感度,解决了未登录词问题。

Description

基于单语义的未登录词处理方法、智能问答方法及装置
本申请要求在2018年6月1日提交中国专利局、申请号为201810558803.7、发明名称为“基于单语义的未登录词处理方法、智能问答方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种基于单语义的未登录词处理方法、智能问答方法及装置。
背景技术
随着自然语言处理技术的发展,基于自然语言处理技术建立起来的智能问答系统也得到了广泛的应用,常用的智能问答系统例如聊天机器人,能够根据用户输入的聊天内容,自动生成相应地应答。
现有技术中,智能问答系统根据不同的应答方法可分为基于知识库的检索式智能问答系统和基于深度学习模型的生成式智能问答系统。其中,基于深度学习模型的智能问答系统,通过建立一个基于RNN(递归神经网络:Recurrent Neural Networks)的对话模型,并使用该模型进行大量的语料训练,使对话模型能够从问答对中学习到对未知对话的潜在应答模式,从而其回答内容不仅局限于训练语料中已有的知识。
基于深度学习模型的智能问答系统在进行语料训练和语料应答时,以词向量为操作对象,词向量是对语料中分词的一种数学化的表达形式。词向量在深度学习中的贡献是:通过将两个词向量计算余弦夹角或欧氏距离,能够得到两个分词的距离,两个分词的距离越小,表示两个分词的相似度越高。在智能问答系统的训练过程中,会根据训练语料生成包含已知分词词向量的词向量空间;在智能问答系统的应答过程中,根据问题分词的词向量与已知分词的词向量之间的距离,并结合机器学习的算法生成问题的应答内容。
但是,基于语料训练得到的词向量空间对于专业领域的业务术语、方言词汇、外文、组合词的包含能力较差,因此,在问题内容不受限的开放式智能问答系统中,智能问答系统经常会遇到未登录词(OOV:out-of-vocabulary),未登录词也称集外词,是指词向量空间中未包含的分词。当智能问答系统遇到包含未登录词的问题时,其给出应答内容的准确率就会下降,这种情况被称为未登录词(OOV)问题。目前,现有技术对未登录词问题缺乏有效的解决办法。
发明内容
本申请实施例提供了一种基于单语义的未登录词处理方法、智能问答方法及装置,以解决现有技术中存在的问题。
第一方面,本申请实施例提供了一种基于单语义的未登录词处理方法,包括:
获取未登录词的至少一个语义,每个语义包括至少一个义原;
从所述未登录词的语义中选择一个基准语义;
根据所述基准语义生成未登录词的语义向量;
根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。
第二方面,本申请实施例提供了一种智能问答方法,应用于本申请实施例提供的基于单语义的未登录词处理方法,包括:
从未知问题的分词结果中获取未登录词;
基于所述未登录词的单语义,生成所述未登录词的仿真词向量;
根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。
第三方面,本申请实施例提供了一种基于单语义的未登录词处理装置,包括:
语义获取单元,用于获取未登录词的至少一个语义,每个语义包括至少一个义原;
基准语义选择单元,用于从所述未登录词的语义中选择一个基准语义;
语义向量生成单元,用于根据所述基准语义生成未登录词的语义向量;
仿真词向量生成单元,用于根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。
第四方面,本申请实施例提供了一种智能问答装置,包括:
未登录词获取单元,用于从未知问题的分词结果中获取未登录词;
未登录词处理单元,用于基于所述未登录词的单语义,生成所述未登录词的仿真词向量;
作答单元,用于根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。
由以上技术方案可知,本申请实施例提供了一种基于单语义的未登录词处理方法、智能问答方法及装置。其中,未登录词的处理方法包括:获取未登录词的至少一个语义,每个语义包括至少一个义原;从所述未登录词的语义中选择一个基准语义;根据所述基准语义生成未登录词的语义向量;根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。从而,通过本申请提供的技术方案生成的仿真词向量既能表达出未登录词的语义,又由于进行了随机化处理而具有随机多变性,因此,本申请实施例生成的随机词向量在用于智能问答系统生成应答时,能够使应答与问题的关联度高,提高应答准确率,又能够使应答具有多样性,从而,避免出现重复而单调的应答,极大地提高用户好感度,解决了现有技术中的未登录词问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于单语义的未登录词处理方法的流程图;
图2为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S120的流程图;
图3为本申请实施例提供的另一种基于单语义的未登录词处理方法步骤S120的流程图;
图4为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S125的流程图;
图5为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S126的流程图;
图6为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S130的流程图;
图7为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S140的流程图;
图8为本申请实施例提供的一种智能问答方法的流程图;
图9为本申请实施例提供的一种基于单语义的未登录词处理装置框图;
图10为本申请实施例提供的一种智能问答装置框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
基于深度学习模型的智能问答系统在进行语料训练和语料应答时,以词向量为操作对象,词向量是对语料中分词的一种数学化的表达形式。词向量在深度学习中的贡献是:通过将两个词向量计算余弦夹角或欧氏距离,能够得到两个分词的距离,两个分词的距离越小,表示两个分词的相似度越高。
在自然语言处理技术领域,一种词向量是One-Hot Representation型,这种词向量根据分词词典中已知分词的数量来确定词向量的维度,其中,词向量中的每个维度代表分词词典中的一个分词,因此,在one-hot representation型的词向量中,只有一个维度的数值为1,其余维度均为0。由于,在一个分词词典中已知分词的数量通常很多,因此,One-Hot Representation型的词向量维度非常高。但是,高维度的词向量在运用到深度学习领域中时,容易受到维度灾难的困扰,并且,由于这种词向量中每个分词独立拥有一个维度,因此很难反映出两个词之间的相似性,不适用于深度学习模型。
因此,在基于深度学习模型的智能问答系统中,通常使用的是另一种词向量:Distributed Representation。这种词向量是通过语料训练将每个分词映射成一种固定长度的低维实数向量,将所有Distributed Representation型的词向量放在一起会形成一个词向量空间,在词向量空间中,每个词向量对应词向量空间的一个点,例如,某个词向量为:[0.792,-0.177,-0.107,0.109,…]。在词向量空间中,两个点之间的距离就代表了两个分词之间的相似度,可用两个词向量之间的余弦夹角和欧式距离表示。基于DistributedRepresentation型词向量的特性,本申请中的词向量优选Distributed Representation型。
现有技术中,受语料数量和内容丰富程度的限制,词向量空间对专业领域的业务术语、方言词汇、外文、组合词的包含能力较差,因此,在问题内容不受限的开放式智能问答系统中,智能问答系统经常会遇到未登录词(OOV:out-of-vocabulary),由于未登录词不存在于词向量空间中,当智能问答系统遇到包含未登录词的问题时,无法利用词向量空间进行答案匹配,因此,对包含未登录词的问题不能给出应答。
为了解决现有技术中的未登录词问题,一种方案是:当用户提出的问题包含未登录词时,使用随机生成的方式对未登录词生成一个随机词向量,这个随机词向量能够映射到词向量空间中的一个点,然后用这个随机词向量作为未登录词的词向量进行词向量的匹配,从而对包含未登录词的问题给出应答。这种方案能够解决现有技术的基于深度学习的智能问答系统中对未登录词不能给出应答的问题,但是,由于在这种方案中,未登录词的词向量是随机生成,具有不确定性,因此,虽然能够对包含未登录词的问题进行应答,但是其应答的内容得不到保证,无应答准确性可言,未登录词问题依然没有得到彻底的解决。
实施例一
为了解决现有技术中的未登录词问题,本申请实施例提供了一种基于单语义的未登录词处理方法,参见图1,为本申请实施例提供的一种基于单语义的未登录词处理方法的流程图,所述方法包括以下步骤:
步骤S110,获取未登录词的至少一个语义,每个语义包括至少一个义原;
本申请中,未登录词的语义可以从知网(英文名称为HowNet)中获得,知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。在知网中,义原是最基本的、不易于再分割的意义的最小单位,一个词可以有多个语义,每个语义可以包含多个义原,例如,词的语义及其义原可以用以下形式表示:
Figure BDA0001897208540000041
其中,每一行列出了一个词的语义和每个语义的义原。其中,在每一行中,第一列表示词本身,第二列表示词的语义的数量,从第二列以后,分别用数字+义原的方式表达出了每个语义中义原的数量和义原的内容。例如:“词”共有6个语义;其中,第1个语义有2个义原:功能词、进展;第2个语义有1个义原:功能词;第3个语义有1个义原:活着;等等。
本申请在步骤S110中获取了未登录词的语义和义原,能够为后续的基于单语义的未登录词的处理提供了可用的处理信息。
步骤S120,从所述未登录词的语义中选择一个基准语义;
在步骤S120中,可通过随机选取的方法从未登录词的语义中选取一个语义作为基准语义。
例如,“和”的语义和义原为:
和 9 1 功能词 1 友善 1 编辑 3 体育 相等 较量 1 柔 1 和谐 1 混合 3 数字 算数 结果 1 唱
可见,“和”共有9个语义,为了从9个语义中随机选取一个语义,可在1-9的范围之间随机生成一个随机整数Z,根据随机整数Z在找到“和”的第Z个语义作为基准语义。
示例地,如果随机整数Z为6,则“和”的基准语义为“和谐”,包含1个义原。
通过随机选取的方式获取的基准语义具有随机性,能够使本申请实施例生成的仿真词向量具有多变性,但随机生成的基准语义有时不能体现未登录词在句子中的原本表达的语义,因此,这种仿真词向量在应用到智能问答系统中时,会导致生成的应答内容多样但有时候准确性有波动。本领域技术人员可权衡多样性与准确性确定是否使用随机方法选择基准语义。
或者,图2为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S120的流程图,如图2所示,在一种可选择的实施方式中,步骤S120可以包括以下步骤:
步骤S121,获取未登录词每个语义的义原数量;
示例地,“和”的9个语义中,义原数量分别为:
语义编号 1 2 3 4 5 6 7 8 9
义原数量 1 1 1 3 1 1 1 3 1
步骤S122,将义原数量最多的一个语义作为基准语义。
从“和”的语义和义元数量中可以看出,“和”的第4个语义和第8个语义均包含义原数量最多的3个义原,分别为第4个语义中的“体育”“较量”“相等”,第8个语义中的“数学”“算数”“结果”;当遇到义原数量最多的语义不唯一时,本申请根据语义的排列顺序,即语义编号,选择顺序位于最前的语义作为基准语义,因此,“和”的基准语义为第4个语义。
语义的义原数量多,说明该语义比较丰富,因此将义原数量最多的一个语义作为基准语义,使基准语义比较有代表性。
此外,图3为本申请实施例提供的另一种基于单语义的未登录词处理方法步骤S120的流程图,如图3所示,在另一种可选择的实施方式中,步骤S120可以包括以下步骤:
步骤S125,获取未登录词在句子中的上下词;所述上下词包括未登录词在句子中的至少一个前序分词和至少一个后序分词。
本申请实施例中定义了上下词的概念,在本申请中,上下词包括未登录词在句子中的至少一个前序分词和至少一个后序分词,具体为:在句子中以未登录词为中心,向句子前远离未登录词的方向依次查找至少一个分词,以及,向句子后远离未登录词的方向依次查找至少一个分词。
图4为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S125的流程图;
如图4所示,在一种可选择的方式中,步骤S125可以包括以下步骤:
步骤S1251,设置用于约束所述上下词数量的取词窗口值C,C为整数且大于等于1;
本申请实施例中,定义了取值窗口C,取值窗口C用于约束上下词的数量,当句子中位于未登录词前方和后方的分词数量均大于C时,上下词的数量为2C。
步骤S1252,根据所述取词窗口值C,从包含所述未登录词的句子的分词中获取所述上下词;
其中,所述上下词包括句子中位于所述未登录词前序的C个分词和后序的C个分词。
示例地,设置取词窗口值C=1;包含未登录词的句子为:我想买一个苹果电脑;句子中的未登录词为:苹果。
首先获得句子中的所有分词,即:我想买一个苹果电脑
由于,取词窗口值C=1,因此,上下词为未登录词在句子中的前一个分词和后一个分词,即:一个、电脑。
示例地,设置取词窗口值C=2,包含未登录词的句子为:我想买一个苹果电脑;句子中的未登录词为:苹果。
首先获得句子中的所有分词,即:我想买一个苹果电脑
由于,取词窗口值C=2,因此,上下词为未登录词在句子中的前两个分词和后两个分词。但是,在句子中,未登录词的后方只有一个分词,对于这种情况,本申请在获取上下词时,如果向前或向后获取到句子的开头或结尾,则停止继续获取。因此,当取词窗口值C=2,从句子中获取的“苹果”的上下词为:想买、一个、电脑。
步骤S126,分别获取所述上下词与每个语义的距离。
图5为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S126的流程图;
如图5所示,在一种可选择的实施方式中,步骤S126可以包括以下步骤:
步骤S1261,获取所述上下词的每个分词与每个语义中每个义原的欧式距离;
示例地,“苹果”的语义和义原为:
苹果 3 5 携带 样式值 特定牌子 电脑 能 1 水果 3 树 水果 生殖
取值窗口值C=1时,“苹果”的上下词共包含以下分词:一个、电脑。
获取上下词“一个”与第一个语义中每个义原的欧式距离,以D(语义,义原)表示,分别为:
D(一个,携带)、D(一个,样式值)、D(一个,样式值)、D(一个,电脑)、D(一个,能)
获取上下词“电脑”与第一个语义中每个义原的欧式距离,以D(语义,义原)表示,分别为:
D(电脑,携带)、D(电脑,样式值)、D(电脑,样式值)、D(电脑,电脑)、D(电脑,能)
获取上下词“一个”与第二个语义中每个义原的欧式距离,以D(语义,义原)表示,分别为:
D(一个,水果)
获取上下词“电脑”与第二个语义中每个义原的欧式距离,以D(语义,义原)表示,分别为:
D(电脑,水果)
获取上下词“一个”与第三个语义中每个义原的欧式距离,以D(语义,义原)表示,分别为:
D(一个,树)、D(一个,水果)、D(一个,生殖)
获取上下词“电脑”与第三个语义中每个义原的欧式距离,以D(语义,义原)表示,分别为:
D(电脑,树)、D(电脑,水果)、D(电脑,生殖)
步骤S1262,根据所述欧式距离,获取所述上下词的每个分词与每个语义的距离DA;
本申请实施例中,距离DA为上下词的每个分词与每个语义的所有义原的欧式距离的平均值。
示例地,“苹果”的上下词的数量为2,“苹果”的语义数量为3,因此共能够得到6(2×3)个距离DA:
DA(一个,语义1)=[D(一个,携带)+D(一个,样式值)+D(一个,样式值)+D(一个,电脑)+D(一个,能)]÷5
DA(电脑,语义1)=[D(电脑,携带)+D(电脑,样式值)+D(电脑,样式值)+D(电脑,电脑)+D(电脑,能)]÷5
DA(一个,语义2)=D(一个,水果)
DA(电脑,语义2)=D(电脑,水果)
DA(一个,语义3)=[D(一个,树)+D(一个,水果)+D(一个,生殖)]÷3
DA(电脑,语义3)=[D(电脑,树)+D(电脑,水果)+D(电脑,生殖)]÷3
步骤S1263,根据所述距离DA,获取所述上下词与每个语义的距离。
本申请实施例中,上下词包括多个分词,因此上下词与每个语义的距离,就是这些分词与每个语义的距离DA的平均值。
示例地:
上下词与第一个语义的距离D1=[DA(一个,语义1)+DA(电脑,语义1)]÷2
上下词与第二个语义的距离D2=[DA(一个,语义2)+DA(电脑,语义2)]÷2
上下词与第三个语义的距离D3=[DA(一个,语义3)+DA(电脑,语义3)]÷2
步骤S127,将与所述上下词的距离最小的语义作为所述基准语义。
在本申请实施例中,步骤S127能够得到多个距离的值,例如D1、D2、D3;在步骤S127中,从所有得到的距离中选择一个最小值对应的语义作为基准语义。
步骤S125-S127结合了未登录词在句子中的上下词来选择语义,能够使选取的基准语义与未登录词的上下词具有最强的语义关联,使选取的基准语义符合未登录词在句子中的真实语义,从而,使用这种基准语义在智能问答系统中生成的应答与问题的关联性强。
步骤S130,根据所述基准语义生成未登录词的语义向量;
本申请实施例中,将基准语义作为未登录词在句子中的语义,生成未登录词的语义向量。
图6为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S130的流程图;
如图6所示,在一种可选择的实施方式中,步骤S130可以包括以下步骤:
步骤S131,获取所述基准语义中每个义原的义原词向量;
示例地,在步骤S120中获取的“苹果”的第一个语义为基准语义,该基准语义中工包含5个义原,因此,在步骤S131中能够获取到5个义原词向量T1~T5。
步骤S132,根据所述基准语义中义原的数量,对所述基准语义中的每个义原设置义原权重;
本申请实施例中,义原权重的大小根据基准语义中义原的数量确定,义原的数量越多,每个义原分摊到的义原权重就越小,以使义原权重能够体现出对基准语义的贡献程度。
在一种可选择的实施方式中,每个义原的义原权重可以相同,均为义原数量的倒数。
示例地,义原词向量T1~T5均为W,且W=1/5。
步骤S133,根据所述义原权重,对所述义原词向量进行加权求和,生成所述基准语义的语义向量。
步骤S133使用以下公式:
Figure BDA0001897208540000081
其中,T为基准语义的语义向量,Ti为基准语义的第i个义原的义元向量,Wi为第i个义原的义原权重。
本申请中,Ti可以为Distributed Representation型的低维向量,例如维数m=50或维数m=100。
步骤S140,根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。
本申请在步骤S130中生成了未登录词的语义向量,可用于在智能问答系统中生成对话的应答内容,但是,由于语义向量来自于基准语义的义元向量的加权,当基准语义的义元向量确定时,语义向量也基本确定,缺少多变性,从而导致使用这种语义向量在智能问答系统中生成的应答内容比较单一。因此,为了提高应答内容的多样性,本申请在步骤S140中,根据一个随机生成的与语义向量维度相同的随机词向量对语义向量进行随机化处理,生成多变的仿真词向量。
图7为本申请实施例提供的一种基于单语义的未登录词处理方法步骤S140的流程图;
如图7所示,在一种可选择的实施方式中,步骤S140可以包括以下步骤:
步骤S141,生成与所述语义向量维度相同的随机词向量;
本申请中,随机词向量的维度要与语义向量的维度相同,以适应深度学习算法中Distributed Representation型的低维向量的计算。
示例地,通过以下方式生成一个m维的随机词向量:
首先,在m个维度上随机赋予[-1,1]之间的任意实数值,生成一个m维的向量Tm;
Tm=[R1,R2,R3,……,Rm-1,Rm]
然后,对向量Tm进行归一化处理,得到本申请需要的随机词向量;
由于向量Tm的每个维度的随机值大小不一,向量Tm会分布在m维空间中的任何一个位置,导致有时随机生成的向量Tm与已知的词向量空间的距离过远,影响词向量的分布平衡,最终影响到词向量之间的相似度计算。因此,本申请中对向量Tm进行归一化处理,将向量Tm每个维度的数值限制在一个较小的范围内,防止上述情况发生。
对向量Tm进行归一化处理可通过以下步骤实现:
首先,获取向量Tm的每个维度数值的平方Q1~Qm;
然后,求取Q1~Qm之和的二次方根的值P,作为归一化系数;
最后,将向量Tm的每个维度的数值除以归一化系数P,生成随机词向量。
步骤S142,获取随机词向量的第一权重,以及,获取语义向量的第二权重;
其中,所述第一权重小于所述第二权重,所述第一权重和所述第二权重的数值之和等于1。
在本申请实施例生成的仿真词向量中,第一权重将影响仿真词向量多样性的程度,第二权重影响仿真词向量表达未登录词语义的程度;对于智能问答系统来说,表达未登录词语义的重要性要高于多样性的重要性,从而保证智能问答系统生成应答的准确性,因此,本申请中第一权重小于第二权重。
进一步地,优选第二权重的范围在0.85~0.9之间,优选第一权重的范围在0.1~0.15之间,使语义在仿真词向量中起到主导作用,并兼顾一定的多样性。
步骤S143,根据所述第一权重和所述第二权重,获取所述随机词向量和所述语义向量的加权和作为所述仿真词向量。
在步骤S143中,仿真词向量通过以下公式获得:
Tf=Tr×S1+T×S2
其中,Tf为未登录词的仿真词向量,Tr为随机词向量,T为语义向量,S1为第一权重,S2为第二权重。
从上述公式中可以看出,本申请得到的仿真词向量Tf由两部分组成:第一部分是Tr×S1,即随机词向量的加权,使仿真词向量具有随机多变的特性;第二部分是T×S2,即未登录词的语义向量的加权,使仿真词向量具有能够反映未登录词语义的特性。由于仿真词向量同时具备这两种特性,因此,使用本申请生成的仿真词向量用于智能问答系统时,不仅生成的应答准确率高,与问题的关联度高,而且够灵活多变而具有应答多样性,从而避免出现重复而单调的应答,极大地提高用户好感度。
由以上技术方案可知,本申请实施例提供了一种基于单语义的未登录词处理方法,包括:获取未登录词的至少一个语义,每个语义包括至少一个义原;从所述未登录词的语义中选择一个基准语义;根据所述基准语义生成未登录词的语义向量;根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。从而,本申请实施例生成的仿真词向量既能表达出未登录词的语义,又由于进行了随机化处理而具有随机多变性,因此,本申请实施例生成的随机词向量在用于智能问答系统生成应答时,能够使应答与问题的关联度高,提高应答准确率,又能够使应答具有多样性,从而,避免出现重复而单调的应答,极大地提高用户好感度,解决了现有技术中的未登录词问题。
实施例二
本申请实施例提供了一种智能问答方法,其中,应用了本申请实施例一提供的基于单语义的未登录词处理方法,图8为本申请实施例提供的一种智能问答方法的流程图,如图8所示,所述方法包括以下步骤:
步骤S210,从未知问题的分词结果中获取未登录词;
智能问答系统需要通过训练语料的训练才能具备应答能力,在训练过程中,智能问答系统会根据已知的分词生成用来表达已知分词词向量的词向量空间;当用户向训练后的智能问答系统进行提问时,智能问答系统根据预设的分词切词规则对未知问题进行分词,并根据能够根据分词结果获取到问题中不存在与词向量空间中的未登录词,未登录词由于不存在与词向量空间中,因此,无法匹配到对应的词向量,导致智能问答系统在遇到未登录词时,无法通过匹配到准确的应答。
步骤S220,基于所述未登录词的单语义,生成所述未登录词的仿真词向量;
在步骤S220中,使用本申请实施例一提供的基于单语义的未登录词处理方法对步骤S210获取到的未登录词生成仿真词向量;
步骤S230,根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。
由以上技术方案可知,本申请实施例提供了一种智能问答方法,包括:从未知问题的分词结果中获取未登录词;基于所述未登录词的单语义,生成所述未登录词的仿真词向量;根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。本申请实施例提供的智能问答方法,在遇到未知问题中的未登录词时,基于未登录词的单语义,生成未登录词的仿真词向量,在生成仿真词向量的过程中,应用了本申请提供的基于单语义的未登录词处理方法,使智能问答系统生成应答时,能够使应答与问题的关联度高,又能够使应答具有多样性,从而,避免出现重复而单调的应答,提高用户好感度,解决了未登录词问题。
实施例三
本申请实施例提供了一种基于单语义的未登录词处理装置,图9为本申请实施例提供的一种基于单语义的未登录词处理装置框图,如图9所示,所述装置包括:
语义获取单元310,用于获取未登录词的至少一个语义,每个语义包括至少一个义原;
基准语义选择单元320,用于从所述未登录词的语义中选择一个基准语义;
语义向量生成单元330,用于根据所述基准语义生成未登录词的语义向量;
仿真词向量生成单元340,用于根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。
由以上技术方案可知,本申请实施例提供了一种基于单语义的未登录词处理装置,用于从获取未登录词的至少一个语义,每个语义包括至少一个义原;从所述未登录词的语义中选择一个基准语义;根据所述基准语义生成未登录词的语义向量;根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量。从而,本申请实施例生成的仿真词向量既能表达出未登录词的语义,又由于进行了随机化处理而具有随机多变性,因此,本申请实施例生成的随机词向量在用于智能问答系统生成应答时,能够使应答与问题的关联度高,提高应答准确率,又能够使应答具有多样性,从而,避免出现重复而单调的应答,极大地提高用户好感度,解决了现有技术中的未登录词问题。
实施例四
本申请实施例提供了一种智能问答装置,图10为本申请实施例提供的一种智能问答装置框图,如图10所示,所述装置包括:
未登录词获取单元410,用于从未知问题的分词结果中获取未登录词;
未登录词处理单元420,用于基于所述未登录词的单语义,生成所述未登录词的仿真词向量;
作答单元430,用于根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。
由以上技术方案可知,本申请实施例提供了一种智能问答装置,所述装置用于从未知问题的分词结果中获取未登录词;基于所述未登录词的单语义,生成所述未登录词的仿真词向量;根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。本申请实施例提供的智能问答方法,在遇到未知问题中的未登录词时,基于未登录词的单语义,生成未登录词的仿真词向量,在生成仿真词向量的过程中,应用了本申请提供的基于单语义的未登录词处理方法,使智能问答系统生成应答时,能够使应答与问题的关联度高,又能够使应答具有多样性,从而,避免出现重复而单调的应答,提高用户好感度,解决了未登录词问题。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (8)

1.一种基于单语义的未登录词处理方法,其特征在于,包括:
获取未登录词的至少一个语义,每个语义包括至少一个义原;
从所述未登录词的语义中选择一个基准语义;
根据所述基准语义生成未登录词的语义向量包括获取所述基准语义中每个义原的义原词向量,根据所述基准语义中义原的数量,对所述基准语义中的每个义原设置义原权重,根据所述义原权重,对所述义原词向量进行加权求和,生成所述基准语义的语义向量;
根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量包括生成与所述语义向量维度相同的随机词向量,获取随机词向量的第一权重,以及,获取语义向量的第二权重,根据所述第一权重和所述第二权重,获取所述随机词向量和所述语义向量的加权和作为所述仿真词向量,其中,所述第一权重小于所述第二权重,所述第一权重和所述第二权重的数值之和等于1。
2.根据权利要求1所述的方法,其特征在于,所述从未登录词的语义中选择一个基准语义的步骤,包括:
获取未登录词每个语义的义原数量;
将义原数量最多的一个语义作为基准语义。
3.根据权利要求1所述的方法,其特征在于,所述从未登录词的语义中选择一个基准语义的步骤,包括:
获取未登录词在句子中的上下词;所述上下词包括未登录词在句子中的至少一个前序分词和至少一个后序分词;
分别获取所述上下词与每个语义的距离;
将与所述上下词的距离最小的语义作为所述基准语义。
4.根据权利要求3所述的方法,其特征在于,所述获取未登录词在句子中的上下词的步骤,包括:
设置用于约束所述上下词数量的取词窗口值C,C为整数且大于等于1;
根据所述取词窗口值C,从包含所述未登录词的句子的分词中获取所述上下词;
其中,所述上下词包括句子中位于所述未登录词前序的C个分词和后序的C个分词。
5.根据权利要求3所述的方法,其特征在于,所述分别获取所述上下词与每个语义的距离的步骤,包括:
获取所述上下词的每个分词与每个语义中每个义原的欧式距离;
根据所述欧式距离,获取所述上下词的每个分词与每个语义的距离DA;
根据所述距离DA,获取所述上下词与每个语义的距离。
6.一种智能问答方法,其特征在于,应用于权利要求1-5任一所述的方法,包括:
从未知问题的分词结果中获取未登录词;
基于所述未登录词的单语义,生成所述未登录词的仿真词向量;
根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。
7.一种基于单语义的未登录词处理装置,其特征在于,包括:
语义获取单元,用于获取未登录词的至少一个语义,每个语义包括至少一个义原;
基准语义选择单元,用于从所述未登录词的语义中选择一个基准语义;
语义向量生成单元,用于根据所述基准语义生成未登录词的语义向量包括获取所述基准语义中每个义原的义原词向量,根据所述基准语义中义原的数量,对所述基准语义中的每个义原设置义原权重,根据所述义原权重,对所述义原词向量进行加权求和,生成所述基准语义的语义向量;
仿真词向量生成单元,用于根据随机词向量对语义向量进行随机化处理,生成未登录词的仿真词向量包括生成与所述语义向量维度相同的随机词向量,获取随机词向量的第一权重,以及,获取语义向量的第二权重,根据所述第一权重和所述第二权重,获取所述随机词向量和所述语义向量的加权和作为所述仿真词向量,其中,所述第一权重小于所述第二权重,所述第一权重和所述第二权重的数值之和等于1。
8.一种智能问答装置,其特征在于,应用于权利要求1-5任一所述的方法,包括:
未登录词获取单元,用于从未知问题的分词结果中获取未登录词;
未登录词处理单元,用于基于所述未登录词的单语义,生成所述未登录词的仿真词向量;
作答单元,用于根据所述仿真词向量和所述问题中其余分词的词向量,从已训练的问答模型中匹配问题答案。
CN201811497280.6A 2018-06-01 2018-12-07 基于单语义的未登录词处理方法、智能问答方法及装置 Active CN109635294B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810558803.7A CN108829670A (zh) 2018-06-01 2018-06-01 基于单语义的未登录词处理方法、智能问答方法及装置
CN2018105588037 2018-06-01

Publications (2)

Publication Number Publication Date
CN109635294A CN109635294A (zh) 2019-04-16
CN109635294B true CN109635294B (zh) 2023-07-11

Family

ID=64147144

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810558803.7A Pending CN108829670A (zh) 2018-06-01 2018-06-01 基于单语义的未登录词处理方法、智能问答方法及装置
CN201811497280.6A Active CN109635294B (zh) 2018-06-01 2018-12-07 基于单语义的未登录词处理方法、智能问答方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201810558803.7A Pending CN108829670A (zh) 2018-06-01 2018-06-01 基于单语义的未登录词处理方法、智能问答方法及装置

Country Status (1)

Country Link
CN (2) CN108829670A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740162B (zh) * 2019-01-09 2023-07-11 安徽省泰岳祥升软件有限公司 文本表示方法、装置及介质
CN109740163A (zh) * 2019-01-09 2019-05-10 安徽省泰岳祥升软件有限公司 应用于深度学习模型的语义表示资源生成方法及装置
CN110147435B (zh) * 2019-01-24 2023-08-22 腾讯科技(深圳)有限公司 对话生成方法、装置、设备及存储介质
CN111125333B (zh) * 2019-06-06 2022-05-27 北京理工大学 一种基于表示学习与多层覆盖机制的生成式知识问答方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944517A (ja) * 1995-07-31 1997-02-14 Nippon Telegr & Teleph Corp <Ntt> 語義文並べ換え方法及び装置
CN107608973A (zh) * 2016-07-12 2018-01-19 华为技术有限公司 一种基于神经网络的翻译方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8832064B2 (en) * 2005-11-30 2014-09-09 At&T Intellectual Property Ii, L.P. Answer determination for natural language questioning
CN107239443A (zh) * 2017-05-09 2017-10-10 清华大学 一种词向量学习模型的训练方法及服务器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944517A (ja) * 1995-07-31 1997-02-14 Nippon Telegr & Teleph Corp <Ntt> 語義文並べ換え方法及び装置
CN107608973A (zh) * 2016-07-12 2018-01-19 华为技术有限公司 一种基于神经网络的翻译方法及装置

Also Published As

Publication number Publication date
CN108829670A (zh) 2018-11-16
CN109635294A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635294B (zh) 基于单语义的未登录词处理方法、智能问答方法及装置
CN109614618B (zh) 基于多语义的集外词处理方法及装置
CN110147551B (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN110188351B (zh) 语句通顺度及句法评分模型的训练方法及装置
CN105989040B (zh) 智能问答的方法、装置及系统
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
US20170147910A1 (en) Systems and methods for fast novel visual concept learning from sentence descriptions of images
US8583420B2 (en) Method for the extraction of relation patterns from articles
CN111538908A (zh) 搜索排序方法、装置、计算机设备和存储介质
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN110717038B (zh) 对象分类方法及装置
CN117972057A (zh) 对话内容处理方法、设备、存储介质及产品
CN109033085B (zh) 中文分词系统及中文文本的分词方法
CN108038105B (zh) 一种对未登录词生成仿真词向量的方法及装置
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN112163560A (zh) 一种视频信息处理方法、装置、电子设备及存储介质
CN114818729A (zh) 一种训练语义识别模型、查找语句的方法、装置及介质
CN114492451B (zh) 文本匹配方法、装置、电子设备及计算机可读存储介质
CN109299459B (zh) 一种单语义监督的词向量训练方法及装置
CN112860846A (zh) 问题词汇的推荐方法、装置、计算机设备及存储介质
CN113076736A (zh) 多维度的文本评分方法、装置、计算机设备及存储介质
Olena et al. Using the GPT models for responses based on custom content to develop neural consultant for university applicants
CN112818082A (zh) 评价文本推送方法和装置
CN114722267A (zh) 信息推送方法、装置及服务器
CN110688472A (zh) 一种自动筛选问题答案的方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant