CN111414763A - 一种针对手语计算的语义消歧方法、装置、设备及存储装置 - Google Patents
一种针对手语计算的语义消歧方法、装置、设备及存储装置 Download PDFInfo
- Publication number
- CN111414763A CN111414763A CN202010129953.3A CN202010129953A CN111414763A CN 111414763 A CN111414763 A CN 111414763A CN 202010129953 A CN202010129953 A CN 202010129953A CN 111414763 A CN111414763 A CN 111414763A
- Authority
- CN
- China
- Prior art keywords
- words
- semantic
- candidate
- word
- ambiguous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000011159 matrix material Substances 0.000 claims abstract description 73
- 238000012163 sequencing technique Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000007619 statistical method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 208000016354 hearing loss disease Diseases 0.000 abstract description 4
- 208000032041 Hearing impaired Diseases 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000000796 flavoring agent Substances 0.000 description 2
- 235000019634 flavors Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种针对手语计算的语义消歧方法、装置、设备及存储装置,涉及手语计算领域,用于准确计算手语中的歧义词,为听障人群提供准确、高效的手语计算结果,所述方法主要包括:获取输入文本;检索输入文本中的歧义词,并放入待消歧集合中;根据待消歧词的信息,提取歧义词的上下文语境词,放入语境词集合中,并将输入文本向量化;根据歧义词及语境词的信息,召回歧义词的候选词集合;根据歧义词及语境词集合,通过倒排索引和权重计算的方式将候选词做候选预排序;根据输入文本向量及语境词集合,通过预设的潜语义空间矩阵计算,将候选词集合中的词进行语义相关度排序;从候选词集合中选取语义相关度最高的词作为目标义项词。由此,将输入文本中的歧义词转换为符合手语表达习惯的义项词,提高手语计算中的准确率,达到语义匹配效果,使得听力障碍人群能够正确理解输入文本所表达的信息。
Description
技术领域
本发明涉及手语计算技术领域,尤其涉及一种针对手语计算的语义消歧方法、装置、设备及存储装置。
背景技术
为了便于听障人士与其他人交流,手语成为一种方便快捷的选择。现行推广的标准汉语手语为每一个语素或词汇对应相应的手势,通过手势表达语言中的各个语素或词汇,来达到沟通交流的目的,为了让普通人能够与听障人士交流,手语计算的重要性便显得尤为重要。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,手语计算领域与通用自然语言处理领域不同,计算方式和处理方法有着较大区别。
依据《国家通用手语词汇表》(GF0020-2018),通用词汇共计5960个,由于词汇数量远低于日常汉语词汇,为语义消歧带来了极大的困难。手语中的歧义词是根据国家手语规范以及聋障人士约定俗成的表达习惯来确定的,跟日常汉语歧义词处理存在着较大的不同,需要结合手语标的的具体特点,来对手语中的歧义词进行语义识别。
在一般情况下,通过构建的实体相关图模型,并运用随机游走算法进行消歧,或者运用复杂的分类模型来进行消歧,都未能考虑手语词汇数量较少以及手语表达习惯的特点,导致语义识别的准确性不高。
发明内容
本发明的主要目的在于提出一种针对手语计算的语义消歧方法、装置、设备及存储介质,以提高手语计算的准确率。
为解决上述问题,本发明采用如下技术方案:
第一方面,本发明提供了一种针对手语计算的语义消歧的方法,包括以下步骤:
获取输入文本,对文本进行预处理,并以句子为单位进行切分,逐句进行手语计算;
通过多模匹配、搜索、窗口滑动等方法,对输入的文本进行歧义词检测,歧义词包括多义词和未登录词,并将歧义词放入待消歧集合中;
根据待消歧词的类别信息,提取输入文本中的语境词,放入语境词集合中,并根据预设的歧义词消歧矩阵,将输入文本向量化;
根据待消歧词的类别信息及语境词,采用不同的方式召回歧义词对应的候选词集合;
根据歧义词及语境词集合,通过倒排索引和权重计算的方式将候选词做候选预排序;
根据输入文本向量及语境词集合,通过预设的潜语义空间矩阵计算,将候选词集合中的词进行语义相关度排序;
根据语义相关度值,从候选词集合中选取语义相关度最高的词作为目标义项词,以实现对输入文本的语义消歧。
可选的,所述根据输入文本向量及语境词集合,通过预设的潜语义空间矩阵计算,将候选词集合中的词进行语义相关度排序之前,所述方法还包括:
获取历史歧义词及其所对应的义项词集合,以及义项词集合所包含的历史文本集,所述历史歧义词包括多义词和未登录词;
通过对大量历史文本集进行统计分析,构建词汇-文本矩阵T-D;
对词汇-文本矩阵T-D进行奇异值分解,分解为三个矩阵的乘积来表示;
对SVD分解后的矩阵进行降维处理,使用PCA进行降维,使用使用降维后的矩阵构建潜在语义空间矩阵;
根据潜在语义空间矩阵来表示历史文本与历史歧义词所对应的义项词之间的相关度。
可选的,所述通过对大量历史文本集进行统计分析,构建词汇-文本矩阵T-D,具体包括:
词汇-文本矩阵T-D是一个稀疏矩阵,依据历史文本中词汇进行构建;
词汇-文本矩阵T-D的元素使用该词在文档中重要度值来表示。
可选的,通过多模匹配、搜索、窗口滑动等方法,对输入的文本进行歧义词检测,具体包括:
采用多模式串字符匹配算法,构建多义词AC自动机,用以高效匹配输入文本中出现的多义词,并将多义词加入多义词集合中;
将输入文本进行分词后,通过哈希查找的方式确定未登录词,并将未登录词添加入未登录词集合中;
由多义词集合与未登录词集合共同组成待消歧集合。
可选的,根据待消歧词的类别信息,提取输入文本中的语境词,放入语境词集合中,并根据预设的歧义词消歧矩阵,将输入文本向量化,具体包括:
对输入文本进行词法分析,计算歧义词的词性,根据词性得到多义词的候选词集合中的目标义项词;
对输入文本进行句法分析,提取歧义词的句法关联词,将句法关联词放入语境词集合中;
对输入文本进行关键词分析,提取歧义词的关键词,并将关键词放入语境词集合中;
根据预设的词汇-文档T-D矩阵,结合句法关联词及关键词的权重,将输入文本向量化。
根据待消歧词的类别信息及语境词,采用不同的方式召回歧义词对应的候选词集合,具体包括:
针对多义词,通过哈希查找,确定多义词的候选义项词,并将候选义项词放入候选词集合中;
针对未登录词,通过字粒度方式进行切分,通过字的义项召回候选义项词,并将候选义项词放入候选词集合中。
可选的,根据歧义词及语境词集合,通过倒排索引和权重计算的方式将候选词做候选预排序,具体包括:
针对多义词,根据歧义词的词性确定目标义项词,根据语境名词集合,包括句法关联词和关键词,通过倒排索引和权重计算的方式将候选词做候选预排序;
针对未登录词,直接通过倒排索引和权重计算的方式将候选词做候选预排序。
可选的,根据输入文本向量及语境词集合,通过预设的潜语义空间矩阵计算,将候选词集合中的词进行语义相关度排序,具体包括:
结合候选预排序的结果,将权利要求5所计算的输入文本向量,与预设的潜语义空间矩阵进行矩阵计算,计算出歧义词与候选词之间的语义相关度值;
选取相关度最高的义项词或组合义项词作为最终的目标义项词。
第二方面,本发明提供了一种针对手语计算的语义消歧的装置,包括以下步骤:
信息获取模块,用于获取输入文本,对文本进行预处理,并以句子为单位进行切分,逐句进行手语计算;
歧义检测模块,用于对输入的文本进行歧义词检测,歧义词包括多义词和未登录词,并将歧义词放入待消歧集合中;
信息提取模块,用于提取输入文本中的语境词,放入语境词集合中,并将输入文本向量化;
候选召回模块,用于召回歧义词对应的候选词集合;
数据预排模块,用于将候选词做候选预排序;
语义精排模块,用于将候选词集合中的词进行语义相关度排序;
义项确定模块,用于从候选词集合中选取语义相关度最高的词作为目标义项词,以实现对输入文本的语义消歧。
第三方面,本发明提供了一种存储一个或多个程序的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述第一方面所述的手语计算中语义消歧方法的步骤。
第四方面,本发明提供了提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使得计算机执行如第一方面所述的手语计算中语义消歧的方法。
本发明实施例通过获取输入文本,对文本并以句子为单位进行切分;逐句对文本进行歧义词检测,并将歧义词放入待消歧集合中;根据待消歧词的类别信息,提取输入文本中的语境词,放入语境词集合中,并根据预设的歧义词消歧矩阵,将输入文本向量化;根据待消歧词的类别信息及语境词,采用不同的方式召回歧义词对应的候选词集合;根据歧义词及语境词集合,通过倒排索引和权重计算的方式将候选词做候选预排序;根据输入文本向量及语境词集合,通过预设的潜语义空间矩阵计算,将候选词集合中的词进行语义相关度排序;根据语义相关度值,从候选词集合中选取语义相关度最高的词作为目标义项词,以实现对输入文本的语义消歧。
附图说明
图1为本发明实施例提供的一种针对手语计算的语义消歧系统结构示意图;
图2为本发明实施例提供的一种针对手语计算的语义消歧方法整体流程图;
图3为本发明实施例提供的一种针对手语计算的语义消歧方法流程图一;
图4为本发明实施例提供的一种针对手语计算的语义消歧方法流程图二;
图5为本发明实施例提供的一种针对手语计算的语义消歧装置结构图一;
图6为本发明实施例提供的一种针对手语计算的语义消歧装置结构图二。
具体实施方式
1.为了本发明的目的、技术方案及优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
2.参见图1,图1为本发明实施例提供的一种针对手语计算的语义消歧系统结构示意图,包括以下步骤:
接口层101,即对外提供的所有消歧相关的接口,主要包括手语计算接口、歧义词类型接口和歧义词义项接口等。其中,手语计算接口加入了语义消歧功能;歧义词类型接口用于查询手语计算中歧义词的计算类型结果;歧义词义项接口用于查询手语中的歧义词的所以义项;
计算层102,包括文本预处理、消歧核心模型和消歧分析,文本预处理包括文本切分、歧义词检测、语境词抽取、预设潜语义空间矩阵计算等,其中歧义词检测采用多模式串字符匹配算法和哈希查找进行检测,语境词抽取包括文本词法分析、文本句法分析、文本关键词分析;消歧核心模型包括召回模型、预排序模型、精排序模型,其中召回模型,包括哈希查找和字粒度义项召回,排序模型通过倒排索引和权重计算,精排序通过预设的潜语义空间矩阵进行矩阵计算;消歧分析主要包括权重计算和义项词选取;
存储层103,主要包括索引数据存储和歧义词数据存储,其中:索引数据存储使用实时分布式搜索分析引擎(Elastic Search)存储架构,支持亿级内容吞吐,索引更新达到秒级;歧义词数据存储集成了手语词汇数据、多义词数据、预设的潜语义空间矩阵进行矩阵数据、历史文本数据四种形式的数据类型,适用于存储多种数据形式的复杂数据场景,底层可采用不同的基础存储库,目前已经集成了关系型数据库管理系统(MySQL)、基于分布式文件存储的数据库(MongoDB)、内存数据库(Redis)和计算引擎(Spark)等存储方式;
数据层104,即原始数据层,包含各类日志数据、访问信息等,主要分为结构化数据、半结构化数据和非结构化数据等。
3.图2为本发明实施例提供的一种针对手语计算的语义消歧方法整体流程图,整体流程中包括数据预处理、歧义词检测、信息提取、候选召回和语义排序,其中,数据预处理过程包括文本处理、语句切分以及分词,歧义词检测过程包括多义词检测、未登录词检测以及歧义词数据集合,信息提取过程包括候词性计算、句法关联词提取以及关键词提取,候选召回过程包括多义词候选集召回和未登录词候选集召回,语义排序过程包括预排序、精排序以及语义消歧结果等。
本实施例通过上述方案,通过获取输入文本,并进行文本预处理;检索输入文本中的歧义词,并放入待消歧集合中;根据待消歧词的信息,提取歧义词的上下文语境词,放入语境词集合中,并将输入文本向量化;根据歧义词及语境词的信息,召回歧义词的候选词集合;根据歧义词及语境词集合,通过倒排索引和权重计算的方式将候选词做候选预排序;根据输入文本向量及语境词集合,通过预设的潜语义空间矩阵计算,将候选词集合中的词进行语义相关度排序;从候选词集合中选取语义相关度最高的词作为目标义项词,达到提高手语计算的准确性的目的。
4.参见图3,图3为本发明实施例提供的一种针对手语计算的语义消歧方法流程图一,如图3所示,包括以下步骤:
S101,获取输入文本。
本实施例的技术方案中首先获取输入文本,用户通过手语计算平台的接口层输入信息,输入信息可以是各种形式输入,以适应不同的使用场景。
该技术方案可以应用于课堂,一般情况下,普通学校的教师不通晓手语,对于听力障碍的学生来说,无法听到教师授课内容,这样,可以将教材中的内容或讲义中的内容作为输入信息,以将这些信息转换为手语,便于听力障碍的学生学习。
该方案可以应用于机场、医院、银行等公共场合,普通用户与听力障碍人士进行沟通时,可以将普通用户说话的声音作为输入信号,并转换为相应的手语动画,以实现相关讯息的问询。
可选的,在一个具体实施方式中,该步骤101包括:
获取用户输入的语音信号,并将所述语音信号转换为文本信息;或者
识别用户的手写输入并生成相应的文本信息;或者
获取用户导入的文本信息。
S102、检索输入文本中的歧义词,并放入待消歧集合。本实施例中,所述的检索输入文本中的歧义词,对于任意给定的输入文本,文本中可能包含的歧义词有多义词和未登录词,针对不同的歧义词类型,采用不同的方式进行检索;
可选的,参考图4为本发明实施例提供的一种针对手语计算的语义消歧方法流程图二所示;S102包括S201-S202。
S201、针对手语计算的多义词,将国标手语中的多义词采用多模式串字符匹配算法,构建多义词AC自动机,用模式串建立字典树,在自动机中,增加了Fail 节点,处理方式同KMP算法一致,当匹配失败时,则转到该结点的Fail结点继续回溯,避免从头开始匹配影响效率;
S202、针对手语计算的未登录词,将输入文本进行分词后,通过哈希查找的方式确定未登录词,并将未登录词添加入未登录词集合中;
例如输入文本为“今天学校食堂的菜单上增加了一道风味十足的川菜”,其中,“菜单”是手语中的歧义词,通过AC自动机可检索出来,将文本进行分词,得到S=[w1,w2,....],遍历每一个词语,通过哈希查找检测是否为国标手语词汇,其中“川菜”为未登录词,若未在国标手语中检测到,则将改词标记为未登录词,最终得到歧义词的候选词集合,记为W= {Polysemy:[p1,p2,...],Unregistered words:[u1,u2,...]};
S103、提取歧义词的上下文语境词,放入语境词集合中,并将输入文本向量化。本实施例中,所述的提取歧义词的上下文语境词,包括计算歧义词的词性、提取歧义词的句法关联词、提取歧义词的关键词,针对不同的类型词语采用不同的方法进行计算;
可选的,参考图4为本发明实施例提供的一种针对手语计算的语义消歧方法流程图二所示;S103包括S301-S302。
S301、词法分析,计算歧义词的词性,进行句法分析,提取歧义词的句法关联词,关键词分析,提取歧义词的关键词。通过对输入文本进行词法分析,计算歧义词的词性,根据词性得到多义词的候选词集合中的目标义项词;通过对输入文本进行句法分析,提取歧义词的句法关联词,将句法关联词放入语境词集合中;通过对输入文本进行关键词分析,提取歧义词的关键词,并将关键词放入语境词集合中;
S302、根据预设的词汇-文档T-D矩阵,结合句法关联词及关键词的权重,将输入文本向量化;
预设的词汇-文档T-D矩阵的计算,获取历史歧义词及其所对应的义项词集合,以及义项词集合所包含的历史文本集,所述历史歧义词包括多义词和未登录词;通过对大量历史文本集进行统计分析,构建词汇-文本矩阵T-D;对词汇-文本矩阵T-D进行奇异值分解,分解为三个矩阵的乘积来表示;对SVD分解后的矩阵进行降维处理,使用PCA进行降维,使用使用降维后的矩阵构建潜在语义空间矩阵;根据潜在语义空间矩阵来表示历史文本与历史歧义词所对应的义项词之间的相关度;
词汇-文本矩阵T-D是一个稀疏矩阵,其行表示词,其列表示历史文本,矩阵的元素是对应词在历史文本中的重要度值,此处采用该词的TF-IDF值;
第一个矩阵T-C是对词进行分类的矩阵,其行表示词,其列表示词的语义类,其中行中的非零元素表示每个词在不同语义类中的相关性;如:T-C =[[0.82,0.15],[0.32,0.69],[0.22,0.15]],则第一个词和第一个语义类比较相关,第二个词与第二个语义类比较相关,第三个词与两个语义都相关性都较弱;
第二个矩阵C-C是表示词类和文本类之间的相关性矩阵,如C-C =[[0.92,0.25],[0.16,0.73]],则第一个词的语义类和第一个文本的语义类相关,第二个词的语义类和第二个文本的语义类相关;
第三个矩阵C-D是对文本进行分类的矩阵,其行表示文本语义类,其列表示文本,其中每一列的元素表示每个文本在不同文本语义类中的相关性,如Y =[[0.75,0.18,0.26],[0,0.95,0.36]],则第一个文本属于第一个文本语义类,第二个文本和第二个文本语义类相关,第三个文本与两个文本语义类都不相关;
可选的,计算歧义词的词性,例如输入文本为“考场要注意纪律规范”,对输入文本进行词法分析,[['考场','n'],['要','v'],['注意','v'],[' 纪律','n'],['规范','n']],歧义词“规范”的词性为名词,该词在多义词信息中为
则可以通过计算歧义词的词性,来达到语义消歧的效果;
可选的,计算句法关联词及关键词,对文本进行依存句法分析,提取输入文本的句法关联词,通过关键词分析,提取输入文本的关键词,例如输入文本为“今天学校食堂的菜单上增加了一道风味十足的川菜”,歧义词“菜单”为主语,提取对应的定语“学校食堂”,宾语“川菜”作为句法关联词,通过关键词分析,提取“食堂”和“增加”,并将语境词放入集合记为M={m1,m2,...},用以增加语境词的权重;
根据预设的词汇-文档T-D矩阵,结合句法关联词及关键词及其权重,将输入文本向量化为矩阵T=[[t1,t2,...]];
S104、根据歧义词及语境词的信息,召回歧义词的候选词集合。本实施例中,根据待消歧词的类别信息及语境词,采用不同的方式召回歧义词对应的候选词集合;
可选的,参考图4为本发明实施例提供的一种针对手语计算的语义消歧方法流程图二所示;S104包括S401-S402。
S401、通过哈希查找,确定多义词的候选义项词,并将候选义项词放入候选词集合中,具体候选义项词的数据结构详见上述结构;
S402、通过字粒度方式进行切分,通过字的义项召回候选义项词,并将候选义项词放入候选词集合中;例如输入文本为“今天学校食堂的菜单上增加了一道风味十足的川菜”,其中“川菜”为未登录词,将“川菜”进行字粒度方式进行切分“川”、“菜”,通过字的义项召回候选义项词,C={{c11,c12,...}, {c21,c22,...}..},将候选义项词放入对应的集合中;
S105、根据歧义词及语境词集合,通过倒排索引和权重计算的方式将候选词做候选预排序;
可选的,参考图4为本发明实施例提供的一种针对手语计算的语义消歧方法流程图二所示;S105包括S501-S502;
S501、根据歧义词的词性确定目标义项词,根据语境名词集合,包括句法关联词和关键词,通过倒排索引和权重计算的方式将候选词做候选预排序;
其中语境词集合为与歧义词关联度较大的词语,对文本具有较强的表征作用,可通过语境词来对候选词进行预排序;
通过对大量历史文本构建倒排索引,主要分为两个部分:Doc2term词项构造和倒排记录表构建,其中Doc2term词项构造,主要是利用分词系统将历史文本中的各项文本信息拆分成一些表意较强且重要的词汇,便于查找对应的历史文本,这其中以下几个步骤:文本词条化,主要任务是将一段连续的文本序列信息拆分成多个子序列;停用词过滤,过滤掉在文本列表中出现的频数较高且价值不大的词;词条归一化,主要就是将一些具有隐式相关的词条划分为一个等价类;
倒排记录表构建,基本方法为:通过处理将文档集合转化为“词项ID-文档 ID”对;对词项ID、文档ID进行排序,将具有相同词项对文档ID归并到该词项所对应的倒排记录表中;将上述步骤产生的倒排索引写入磁盘,生成中间文件;将上述所有的中间文件合并成最终的倒排索引。
S502、直接通过倒排索引和权重计算的方式将候选词做候选预排序,方法如上所述;
S106、根据输入文本向量及语境词集合,通过预设的潜语义空间矩阵计算,将候选词集合中的词进行语义相关度排序;
结合候选预排序的结果,将S302计算的文本向量,与预设的潜语义空间矩阵进行矩阵计算,计算出歧义词与候选词之间的语义相关度值;
S107、从候选词集合中选取语义相关度最高的词作为目标义项词,以实现对输入文本的语义消歧;
本发明进一步提供一种针对手语计算的语义消歧装置。
5.图5为本发明实施例提供的一种针对手语计算的语义消歧装置结构图一,该语义消歧装置包括:
S10信息获取模块,用于获取输入文本,对文本进行预处理,并以句子为单位进行切分,逐句进行手语计算;
S20歧义检测模块,用于对输入的文本进行歧义词检测,歧义词包括多义词和未登录词,并将歧义词放入待消歧集合中;
所述通过多模匹配、搜索、窗口滑动等方法,对输入的文本进行歧义词检测,具体包括:
采用多模式串字符匹配算法,构建多义词AC自动机,用以高效匹配输入文本中出现的多义词,并将多义词加入多义词集合中;
将输入文本进行分词后,通过哈希查找的方式确定未登录词,并将未登录词添加入未登录词集合中;
由多义词集合与未登录词集合共同组成待消歧集合。
S30信息提取模块,用于提取输入文本中的语境词,放入语境词集合中,并将输入文本向量化;
对输入文本进行词法分析,计算歧义词的词性,根据词性得到多义词的候选词集合中的目标义项词;对输入文本进行句法分析,提取歧义词的句法关联词,将句法关联词放入语境词集合中;对输入文本进行关键词分析,提取歧义词的关键词,并将关键词放入语境词集合中;
根据预设的词汇-文档T-D矩阵,结合句法关联词及关键词的权重,将输入文本向量化。
S40候选召回模块,用于召回歧义词对应的候选词集合;
针对多义词,通过哈希查找,确定多义词的候选义项词,并将候选义项词放入候选词集合中;针对未登录词,通过字粒度方式进行切分,通过字的义项召回候选义项词,并将候选义项词放入候选词集合中;
S50语义排序模块,用于将候选词进行排序;
可选的,参考图6为本发明实施例提供的一种针对手语计算的语义消歧装置结构图二;S50包括S501-S502;
S501数据预排模块,用于将候选词做候选预排序;
针对多义词,根据歧义词的词性确定目标义项词,根据语境名词集合,包括句法关联词和关键词,通过倒排索引和权重计算的方式将候选词做候选预排序;针对未登录词,直接通过倒排索引和权重计算的方式将候选词做候选预排序。
S502语义精排模块,用于将候选词集合中的词进行语义相关度排序;
结合候选预排序的结果,将权利要求5所计算的输入文本向量,与预设的潜语义空间矩阵进行矩阵计算,计算出歧义词与候选词之间的语义相关度值;
S60义项确定模块,用于从候选词集合中选取语义相关度最高的词作为目标义项词,以实现对输入文本的语义消歧。
6.优选的,本发明实施例还提供一种移动终端,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述手语计算中的语义消歧实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述手语计算中的语义消歧实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述语境词提取,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (11)
1.一种针对手语计算的语义消歧方法,其特征在于,所述针对手语计算的语义消歧方法包括以下步骤:
获取输入文本,对文本进行预处理,并以句子为单位进行切分,逐句进行手语计算;
通过多模匹配、搜索、窗口滑动等方法,对输入的文本进行歧义词检测,歧义词包括多义词和未登录词,并将歧义词放入待消歧集合中;
根据待消歧词的类别信息,提取输入文本中的语境词,放入语境词集合中,并根据预设的歧义词消歧矩阵,将输入文本向量化;
根据待消歧词的类别信息及语境词,采用不同的方式召回歧义词对应的候选词集合;
根据歧义词及语境词集合,通过倒排索引和权重计算的方式将候选词做候选预排序;
根据输入文本向量及语境词集合,通过预设的潜语义空间矩阵计算,将候选词集合中的词进行语义相关度排序;
根据语义相关度值,从候选词集合中选取语义相关度最高的词作为目标义项词,以实现对输入文本的语义消歧。
2.如权利要求1所述的针对手语计算的语义消歧方法,其特征在于,所述根据输入文本向量及语境词集合,通过预设的潜语义空间矩阵计算,将候选词集合中的词进行语义相关度排序之前,所述方法还包括:
获取历史歧义词及其所对应的义项词集合,以及义项词集合所包含的历史文本集,所述历史歧义词包括多义词和未登录词;
通过对大量历史文本集进行统计分析,构建词汇-文本矩阵T-D;
对词汇-文本矩阵T-D进行奇异值分解,分解为三个矩阵的乘积来表示;
对SVD分解后的矩阵进行降维处理,使用PCA进行降维,使用使用降维后的矩阵构建潜在语义空间矩阵;
根据潜在语义空间矩阵来表示历史文本与历史歧义词所对应的义项词之间的相关度。
3.如权利要求2所述的方法,其特征在于,所述通过对大量历史文本集进行统计分析,构建词汇-文本矩阵T-D,具体包括:
词汇-文本矩阵T-D是一个稀疏矩阵,依据历史文本中词汇进行构建;
词汇-文本矩阵T-D的元素使用该词在文档中重要度值来表示。
4.如权利要求1所述的方法,其特征在于,所述通过多模匹配、搜索、窗口滑动等方法,对输入的文本进行歧义词检测,具体包括:
采用多模式串字符匹配算法,构建多义词AC自动机,用以高效匹配输入文本中出现的多义词,并将多义词加入多义词集合中;
将输入文本进行分词后,通过哈希查找的方式确定未登录词,并将未登录词添加入未登录词集合中;
由多义词集合与未登录词集合共同组成待消歧集合。
5.如权利要求1所述的方法,其特征在于,根据待消歧词的类别信息,提取输入文本中的语境词,放入语境词集合中,并根据预设的歧义词消歧矩阵,将输入文本向量化,具体包括:
对输入文本进行词法分析,计算歧义词的词性,根据词性得到多义词的候选词集合中的目标义项词;
对输入文本进行句法分析,提取歧义词的句法关联词,将句法关联词放入语境词集合中;
对输入文本进行关键词分析,提取歧义词的关键词,并将关键词放入语境词集合中;
根据预设的词汇-文档T-D矩阵,结合句法关联词及关键词的权重,将输入文本向量化。
6.如权利要求1所述的方法,其特征在于,根据待消歧词的类别信息及语境词,采用不同的方式召回歧义词对应的候选词集合,具体包括:
针对多义词,通过哈希查找,确定多义词的候选义项词,并将候选义项词放入候选词集合中;
针对未登录词,通过字粒度方式进行切分,通过字的义项召回候选义项词,并将候选义项词放入候选词集合中。
7.如权利要求1所述的方法,其特征在于,根据歧义词及语境词集合,通过倒排索引和权重计算的方式将候选词做候选预排序,具体包括:
针对多义词,根据歧义词的词性确定目标义项词,根据语境名词集合,包括句法关联词和关键词,通过倒排索引和权重计算的方式将候选词做候选预排序;
针对未登录词,直接通过倒排索引和权重计算的方式将候选词做候选预排序。
8.如权利要求1所述的方法,其特征在于,根据输入文本向量及语境词集合,通过预设的潜语义空间矩阵计算,将候选词集合中的词进行语义相关度排序,具体包括:
结合候选预排序的结果,将权利要求5所计算的输入文本向量,与预设的潜语义空间矩阵进行矩阵计算,计算出歧义词与候选词之间的语义相关度值;
选取相关度最高的义项词或组合义项词作为最终的目标义项词。
9.一种针对手语计算的语义消歧装置,其特征在于,所述针对手语计算的语义消歧装置包括以下内容:
信息获取模块,用于获取输入文本,对文本进行预处理,并以句子为单位进行切分,逐句进行手语计算;
歧义检测模块,用于对输入的文本进行歧义词检测,歧义词包括多义词和未登录词,并将歧义词放入待消歧集合中;
信息提取模块,用于提取输入文本中的语境词,放入语境词集合中,并将输入文本向量化;
候选召回模块,用于召回歧义词对应的候选词集合;
数据预排模块,用于将候选词做候选预排序;
语义精排模块,用于将候选词集合中的词进行语义相关度排序;
义项确定模块,用于从候选词集合中选取语义相关度最高的词作为目标义项词,以实现对输入文本的语义消歧。
10.一种手语计算中的语义消歧设备,其特征在于,所述一种手语计算的语义消歧备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的手语计算语义消歧程序,所述手语计算中的语义消歧程序配置为实现如权利要求1至8中任一项所述的手语计算中的语义消歧方法的步骤。
11.一种计算机可读存储介质,其上存储有一种手语计算的语义消歧程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的手语计算中的语义消歧方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129953.3A CN111414763A (zh) | 2020-02-28 | 2020-02-28 | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129953.3A CN111414763A (zh) | 2020-02-28 | 2020-02-28 | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111414763A true CN111414763A (zh) | 2020-07-14 |
Family
ID=71494263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010129953.3A Pending CN111414763A (zh) | 2020-02-28 | 2020-02-28 | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414763A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737407A (zh) * | 2020-08-25 | 2020-10-02 | 成都数联铭品科技有限公司 | 基于事件消歧的事件唯一id构建方法 |
CN112668464A (zh) * | 2020-12-25 | 2021-04-16 | 株洲手之声信息科技有限公司 | 一种融合场景匹配的中文手语翻译模型构建方法及装置 |
CN112668463A (zh) * | 2020-12-25 | 2021-04-16 | 株洲手之声信息科技有限公司 | 一种基于场景识别的中文手语翻译方法及系统 |
CN112686025A (zh) * | 2021-01-27 | 2021-04-20 | 浙江工商大学 | 一种基于自由文本的中文选择题干扰项生成方法 |
CN113343686A (zh) * | 2021-04-30 | 2021-09-03 | 山东师范大学 | 文本多特征歧义消解方法及系统 |
CN114818736A (zh) * | 2022-05-31 | 2022-07-29 | 北京百度网讯科技有限公司 | 文本处理方法、用于短文本的链指方法、装置及存储介质 |
CN115484493A (zh) * | 2022-09-09 | 2022-12-16 | 深圳市小溪流科技有限公司 | 一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统 |
CN116756345A (zh) * | 2023-08-15 | 2023-09-15 | 杭州同花顺数据开发有限公司 | 一种实体链接方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079268A (zh) * | 2006-12-28 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 进行手语合成与显示的系统和方法 |
CN103177075A (zh) * | 2011-12-30 | 2013-06-26 | 微软公司 | 基于知识的实体检测和消歧 |
CN104732590A (zh) * | 2015-03-09 | 2015-06-24 | 北京工业大学 | 一种手语动画的合成方法 |
CN110390106A (zh) * | 2019-07-24 | 2019-10-29 | 中南民族大学 | 基于双向关联的语义消歧方法、装置、设备及存储介质 |
CN110717052A (zh) * | 2019-10-15 | 2020-01-21 | 山东大学 | 服务机器人智能化服务中的环境表征方法 |
-
2020
- 2020-02-28 CN CN202010129953.3A patent/CN111414763A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079268A (zh) * | 2006-12-28 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 进行手语合成与显示的系统和方法 |
CN103177075A (zh) * | 2011-12-30 | 2013-06-26 | 微软公司 | 基于知识的实体检测和消歧 |
CN104732590A (zh) * | 2015-03-09 | 2015-06-24 | 北京工业大学 | 一种手语动画的合成方法 |
CN110390106A (zh) * | 2019-07-24 | 2019-10-29 | 中南民族大学 | 基于双向关联的语义消歧方法、装置、设备及存储介质 |
CN110717052A (zh) * | 2019-10-15 | 2020-01-21 | 山东大学 | 服务机器人智能化服务中的环境表征方法 |
Non-Patent Citations (1)
Title |
---|
康琦: "《机器学习中的不平衡分类方法》", 31 October 2017, 同济大学出版社, pages: 163 - 166 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737407B (zh) * | 2020-08-25 | 2020-11-10 | 成都数联铭品科技有限公司 | 基于事件消歧的事件唯一id构建方法 |
CN111737407A (zh) * | 2020-08-25 | 2020-10-02 | 成都数联铭品科技有限公司 | 基于事件消歧的事件唯一id构建方法 |
CN112668464A (zh) * | 2020-12-25 | 2021-04-16 | 株洲手之声信息科技有限公司 | 一种融合场景匹配的中文手语翻译模型构建方法及装置 |
CN112668463A (zh) * | 2020-12-25 | 2021-04-16 | 株洲手之声信息科技有限公司 | 一种基于场景识别的中文手语翻译方法及系统 |
CN112668463B (zh) * | 2020-12-25 | 2022-12-02 | 株洲手之声信息科技有限公司 | 一种基于场景识别的中文手语翻译方法及系统 |
CN112668464B (zh) * | 2020-12-25 | 2022-12-02 | 株洲手之声信息科技有限公司 | 一种融合场景匹配的中文手语翻译模型构建方法及装置 |
CN112686025B (zh) * | 2021-01-27 | 2023-09-19 | 浙江工商大学 | 一种基于自由文本的中文选择题干扰项生成方法 |
CN112686025A (zh) * | 2021-01-27 | 2021-04-20 | 浙江工商大学 | 一种基于自由文本的中文选择题干扰项生成方法 |
CN113343686A (zh) * | 2021-04-30 | 2021-09-03 | 山东师范大学 | 文本多特征歧义消解方法及系统 |
CN114818736A (zh) * | 2022-05-31 | 2022-07-29 | 北京百度网讯科技有限公司 | 文本处理方法、用于短文本的链指方法、装置及存储介质 |
CN114818736B (zh) * | 2022-05-31 | 2023-06-09 | 北京百度网讯科技有限公司 | 文本处理方法、用于短文本的链指方法、装置及存储介质 |
CN115484493A (zh) * | 2022-09-09 | 2022-12-16 | 深圳市小溪流科技有限公司 | 一种iptv音视频实时转虚拟手语视频的实时智能流媒体系统 |
CN116756345A (zh) * | 2023-08-15 | 2023-09-15 | 杭州同花顺数据开发有限公司 | 一种实体链接方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
US9613024B1 (en) | System and methods for creating datasets representing words and objects | |
US10503828B2 (en) | System and method for answering natural language question | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
CN111475623A (zh) | 基于知识图谱的案件信息语义检索方法及装置 | |
KR102491172B1 (ko) | 자연어 질의응답 시스템 및 그 학습 방법 | |
EP4109295A1 (en) | Knowledge graph-based question answering method and apparatus, computer device, and medium | |
Mills et al. | Graph-based methods for natural language processing and understanding—A survey and analysis | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN110162768B (zh) | 实体关系的获取方法、装置、计算机可读介质及电子设备 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
JP2020191075A (ja) | Web APIおよび関連エンドポイントの推薦 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN113095080A (zh) | 基于主题的语义识别方法、装置、电子设备和存储介质 | |
WO2019173085A1 (en) | Intelligent knowledge-learning and question-answering | |
CN111090771A (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
Alami et al. | Arabic text summarization based on graph theory | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
KR101478016B1 (ko) | 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |