CN109614493B - 一种基于监督词向量的文本缩写识别方法及系统 - Google Patents

一种基于监督词向量的文本缩写识别方法及系统 Download PDF

Info

Publication number
CN109614493B
CN109614493B CN201811642859.7A CN201811642859A CN109614493B CN 109614493 B CN109614493 B CN 109614493B CN 201811642859 A CN201811642859 A CN 201811642859A CN 109614493 B CN109614493 B CN 109614493B
Authority
CN
China
Prior art keywords
speech
abbreviation
candidate
primitive
primitives
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811642859.7A
Other languages
English (en)
Other versions
CN109614493A (zh
Inventor
覃勋辉
杜若
向海
侯聪
刘科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Youyi Information Technology Co ltd
Original Assignee
Chongqing Xiezhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Xiezhi Technology Co ltd filed Critical Chongqing Xiezhi Technology Co ltd
Priority to CN201811642859.7A priority Critical patent/CN109614493B/zh
Publication of CN109614493A publication Critical patent/CN109614493A/zh
Application granted granted Critical
Publication of CN109614493B publication Critical patent/CN109614493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明申请涉及中文缩略语识别领域,具体公开了一种基于监督词向量的文本缩写识别方法,包括以下步骤:一,开放大语料训练监督词向量模型;二,标记现有缩略语词典的原语词性;形成原语词性序列;三,给定文本的词性计算;四,选出给定文本的候选原语和候选缩略语;五,将候选原语和候选缩略语分别输入到监督词向量模型的同义词关系分类器中进行判别。本申请还公开了一种基于监督词向量的文本缩写识别系统。本申请能够在准确识别中文缩写语及其原语。

Description

一种基于监督词向量的文本缩写识别方法及系统
技术领域
本发明涉及中文缩略语识别领域,具体涉及一种文本缩写识别方法和识别系统。
背景技术
汉语是一门意合语言,和西方语言相比,缺少显式的标记,语法、语义、语用方面也更 加灵活,增加了计算机理解和处理的难度,要让计算机能够处理中文信息,尚有许多困难需 要克服。目前,中文信息处理已经在语音识别、分词、机器翻译等领域取得了一些成果。
在中文语言环境中,一些实体名词、短语组合等字数较多的文本,人们更习惯用缩写成 缩略语表达,如“重庆邂智科技有限公司”,缩写为“邂智”或“邂智科技”;又如“电子科技大学”,缩写为“电子科大”或者“科大”。为了更好地将缩略语和原语对应起来, 人们制定了相应的缩略语识别方法。
现在常用的文本缩写识别方法包括基于词典的方法和基于统计的方法两大类。基于词典 的方法使用简单,准确率较高。目前国内通用领域的缩略语词典有十几种,常用的缩略语词 典有《现代汉语缩略语词典》、《常用缩略语词典》等,此外还有很多领域专用的缩略语词 典。虽然基于词典方法具有较高的准确率,但由于汉语通用缩略语词典收入的缩略语数量有 限,难以满足不同地域和领域人群的需求。而且由于汉字衍生能力强,新词产生速度快,许 多词语在被广泛使用的同时也被缩减产生新的缩略语。此外,不同地域、不同领域的人对同 一缩略语可能有多种不同理解。这些问题都使得基于词典的方法具有很大的局限性。
另一类统计的方法基于词频或页面引用率高低选择最可能的词条作为原语,常见的如 Google等搜索引擎。虽然它在一般常见缩略语识别上有较高识别率,但由于词频统计本身 精确性不高,且常受到其他因素的干扰,识别准确率很难进一步提高。例如,用Google检 索“香山”,检索结果“香山国际会议”和“香山饭店”排在“北京香山公园”之前。其原 因就在于通用的基于统计的缩略语识别,受其他因素干扰太大。在局部范围里,“香山国际 会议”和“香山饭店”的页面引用率可能比“香山公园”的高,导致无法第一时间获取最可 能的原语。
此外,现有的所有文本缩写识别方法,都是从缩略语和原语的结构上去比较和区分的, 缺乏语义信息,同一个缩略语在不同的语言环境中表达的意思会存在较大差异,而现有的文 本缩写识别方法无法进行区分,如“科大”除了指代“电子科技大学”外,又可用来指代“中 国科技大学”。
发明内容
本发明意在解决现有的缩写识别无法在保证准确性的同时更新不断出现的新词汇的问 题。
为解决以上问题,提供如下方案:
本方案中的基于监督词向量的文本缩写识别方法,其特征在于:包括以下步骤:
步骤一,训练得到监督词向量模型;所述监督词向量模型,包括词向量模型和同义词关 系分类器;
步骤二,标记现有缩略语词典的原语词性,形成原语词性序列;
步骤三,对给定文本进行词性计算;
步骤四,选出给定文本的候选原语和候选缩略语;
步骤五,将候选原语和候选缩略语分别输入到监督词向量模型的同义词关系分类器中进 行相似度计算;
步骤六,获得原语和缩略语。
名词解释:
缩略语词典:指现有的记载了原语和对应缩略语的公用典籍,原语就是我们常说的全称, 缩略语就是我们常说的简称,缩略语词典为记录了原语和缩略语对应关系的一类词典等书 籍,如《csc》词典、《大词林》、《现代汉语缩略语词典》、《缩略语词典》等。
给定文本:指待识别的文本。
本发明的优点在于:
本发明直接通过在给定文本中寻找原语和缩略语,能够从给定文本自身提供源源不断的 新词汇。而本发明对于给定文本中候选原语的确认,是根据现有缩略语词典中原语的词性排 列,即根据原语词性序列来确认候选原语。再根据候选原语,从给定文本中选出候选缩略语。 本发明直接通过给定文本已有的文本内容,筛选出候选原语和候选缩略语,因此只要给定文 本中存在新词汇形成的原语和缩略语,就不会漏选;相比于现有的识别方法,都是将给定文 本与缩略语词典中的词文本进行对比,本发明有效避免了因此带来的词汇更新问题。
同时,本发明利用现有缩略语词典中的原语,通过对其进行词性标记得到多个原语词性 序列组成的原语词性序列集合,按照这些原语词性序列中词性的排列来从给定文本中选出候 选原语,有效保障了候选原语的准确性。
最后,通过同义词关系分类器,从候选原语和候选缩略语中选出原语和缩略语,从语义 上,对原语和与其对应的缩略语进行了进一步的筛选,使最后得到的原语和缩略语更加准确。
本发明有效解决了现有缩写识别无法在保证准确性的同时更新不断出现的新词汇的问 题
进一步,在步骤四中,先根据原语词性序列从给定文本中找到候选原语,再从候选原语 中根据缩略语筛选规则筛选候选缩略语。
根据原语词性序列筛选候选原语,能够有效保证候选原语的准确性。而根据候选原语筛 选候选缩略语,能够根据缩略语筛选规则做到快速筛选和识别。
进一步,缩略语筛选规则为同时满足以下条件:
条件1:缩略语的字数大于2;
条件2:缩略语中字符的出现顺序必须和原语中的顺序一致;
条件3:缩略语中的字符必须出现在对应的原语中,且中间不夹杂其它字符。
采用这个缩略语筛选规则,能够准确筛选出候选缩略语。
进一步,在步骤四中,选出的候选原语,是从给定文本中根据对应的候选原语选择出来 的正则表达式。
用正则表达式能够比较便于进行对比等操作,当然也可以用其他的表达式。
进一步,在步骤二中,先将现有缩略语词典中的所有原语分别进行分词,用字母标记每 个原语中各个分词的词性,按照原语分词顺序排列的字母序列就是原语词性序列;将所有原 语词性序列组合形成原语词性序列集合。
按照此方法具体对现有缩略语词典中的所有原语进行处理,形成原语词性序列以及原语 词性序列集合,便于后面针对给定文本选择候选原语。
进一步,在步骤三中,先将给定文本分词形成多个待确认词;将待确认词按照步骤二中 的方法进行词性标记形成多个待确认词词性序列。
给定文本也要分词后得到一个个待确认词以及对应的待确认词词性序列,这样能够通过 词性序列的对比,快速找到候选原语。
进一步,将每个待确认词词性序列和原语词性序列集合中的原语词性序列进行对比,选 出与原语词性序列相同的待确认词词性序列;这些被选出的待确认词词性序列对应的待确认 词则为候选原语。
通过与原语词性序列的对比,找到与其相同词性序列的待确认词,作为候选原语。中文 语法上是有一定规则的,而无论是否有新词汇的出现,这种规则在一定长度的时间段内都是 通用的,尤其是语言文字发展得异常稳定的今天。所以,通过提取词性序列的方法,用词性 序列来限定候选原语,能够有效提高识别的准确性。
进一步,在步骤二中,原语词性序列按照词性标记表标记;所述词性标记表包括多个词 性以及每个词性对应的字母和数值。
词性标记表这样设置,方便进行词性标记。
进一步,在步骤四中,在候选原语中删除没有找到对应候选缩写语的候选原语。
这样,使候选原语和后院缩略语能够进行对应,方便后面进行关系计算。
本发明还提供了一种用来进行缩略语识别的识别系统,以解决现有的缩写识别无法同时 保证准确和更新的问题。
一种基于监督词向量的文本缩写识别系统,包括中央处理器以及与中央处理器网络连接 的数据库、输入端和输出端;
所述输入端,用来供给定文本输入;
所述输出端,用来输出给定文本中的所有原语和对应的缩略语;
所述数据库,设置有对应关系表和多个缩略语词典;所述对应关系表包括多个缩略语和 原语关系对;对应关系表中的缩略语和原语关系对包括缩略语词典中的缩略语和原语关系 对;所述数据库内设置有词性标记表,所述词性标记表包括表示词性的字母以及对应的数值;
所述中央处理器,设置有监督词向量模型;所述监督词向量模型,包括词向量模型和同 义词关系分类器;
所述中央处理器按照词性标记表将对应关系表中的所有原语进行词性标记得到多个原 语词性序列组成的原语词性序列集合;
所述中央处理器将接收到的给定文本分词得到多个待确认词;中央处理器按照词性标记 表将每个待确认词进行词性标记形成多个待确认词词性序列组成的待确认词性序列集合;中 央处理器将每个待确认词性序列分别与原语词性序列集合中的原语词性序列进行对比,中央 处理器选出与原语词性序列相同的所有待确认词词性序列;中央处理器将这些待确认词词性 序列对应的待确认词作为候选原语;
中央处理器根据预设的缩略语筛选规则,从给定文本中筛选与候选原语对应的候选缩略 语;若按照缩略语筛选规则,在给定文本中无法找到与某些候选原语对应的候选缩略语,则 删除这些候选原语;
中央处理器将对应的候选原语和候选缩略语通过同义词关系分类器计算相似度,中央处 理器将所有通过相似度计算结果满足预设要求的候选原语和候选缩略语作为原语和缩略发 送给输出端。
附图说明
图1为本发明实施例一中基于监督词向量的文本缩写识别方法的流程图。
图2为本发明实施例一中监督词向量模型的架构图。
具体实施方式
下面通过具体实施方式进一步详细说明:
实施例一
实施例基本如附图1所示:本实施例提供了一种能够在不同语言环境下区分缩略语的一 种基于监督词向量的文本缩写识别方法,包括以下步骤:
S1,监督词向量模型训练
开放大语料和同义词对训练监督词向量模型。监督词向量模型,包含了词向量模型和自 定义同义词关系分类器。训练时,模型输入非监督语料和已知的同义词关系对,得到词向量 和同义词关系分类器。监督词向量模型不仅前期有大量语料进行训练,在进行每次缩略语识 别的时候,还会继续训练给定文本,优化给定文本中的词向量,最后通过同义词关系分类器 识别缩略语和原语。
按照现有的缩略语词典如《缩略语词典》、《现代汉语缩略语词典》中已经记载了的原语和缩略语,以及词关系词典,如《csc》词典、《hownet》、《大词林》等,记录了大 量的同义词,缩写语和原语被看作是一组特殊的同义词关系,建立同义词关系和非同义词关 系对应表,按照对应关系表和开发的大语料,如维基百科、百度知道、微博数据等,训练监 督词向量模型,得到词典中所有词和同义词的同义词关系分类器;
其中,如图2所示,监督词向量模型包括了两部分:
第一部分:cbow词向量网络。本实施例使用的是fasttext cbow模型,因为fasttext 采用了字的ngram模型组合形成词向量的方式,能够估计词典外词语的词向量,这对于长度 较长的原语词向量计算尤其重要;本发明在cbow模型的最后一层采用了负采样方法,加快 了模型训练的速度。
第二部分:同义词关系网络。训练时,关系分类器输入两个词的词向量和词关系(1,-1), 1代表同义词对,-1代表非同义词对。非同义词对由排除同义词对的可能组合,我们随机选 择5-10组的负采样方式加快训练速度。对于一个正样本,loss_pos=||Wi,Wk||2,对于一个 负样本,loss_neg=max(0,d-||Wi,Wk||2)。关系分类loss由正负样本的两部分loss组成:
Figure BDA0001931472500000061
a是调节正负样本的阈值参数,取值范围为0-1,本实施例中a设为0.5代表正负样本同等 重要。d是同义词关系的分类阈值,取值范围同样为0-1,本实施例中设为0.3。
在训练过程中,模型的损失由cbow网络和同义词关系网络的共同损失平均求得。
预测阶段,给定两个词,通过词向量网络计算两个词的词向量,再由同义词关系网络作 为分类器判断是否为缩略词。
如果||Wi,Wk||2>d,则给定词对不是缩略语和原语的关系。
如果||Wi,Wk||2<d,则给定词对是缩略语和原语的关系。
S2,形成词性序列:针对对应关系表中包含的所有原语和缩略语,顺序标记组成单个原 语的所有词语的词性,形成原语词性序列。
S3,形成词性序列集合:将预设的缩略语词典中的所有原语形成的原语词性序列组合起 来,形成原语词性序列集合。
S4,在接收到给定文本后,将该文本进行分词得到词片段形成待确认词,同时将每个待 确认词进行词性标;这里的给定文本指的是包含有需要识别的缩略语或原语的对应文本。
S5,按照原语词性序列集合中的原语词性序列,将给定文本中所有词片段按照其文本顺 序依次组合形成多个候选原语。
在选择好候选原语后,按照以下候选缩略语筛选规则从给定文本中筛选候选缩略语:
a)根据候选原语,在文本中提取所有可能的候选缩略语.可选用正则表达式或其它类似 文本匹配方法。
b)按照以下规则过滤掉一些不满足条件的候选缩略语,如
规则1:缩略语的字数大于2;
规则2:缩略语中字的出现顺序必须和原语的顺序一致;
规则3:缩略语中的字必须出现在原语中,中间不夹杂其它字。
S6,通过已经训练好的同义词关系分类器将候选原语和候选缩略语进行关系计算,将关 系相似度在预设范围内的候选原语和候选缩略语,作为新增的原语和缩略语增加到对应关系 表中。
通过本方法能够不断根据给定文本补充更新原语和缩略语,避免了使用现有缩略语词典 的局限性,同时又通过同义词关系分类器计算候选原语和候选关系后再确定是否成为一对原 语和缩略语,增加了判断的准确性。
相比于现有的词向量模型,监督词向量模型在训练词向量过程中加入词和词的关系,使 其训练得更加快速和准确。
具体实施过程如下:
将给定语料corpus分词,得到分词[word1,word2,...,wordn]和词性结果[pos1,pos2,...,posn]。
根据现有的原语词典[phase1,phase2,...,phasem],分词后有分词序列phase_seg和 词性序列phase_pos,分别为 phase_seg=
[[phase1_w1,phase_w2,...],
[phase2_w1,phase2_w2,...],...,
[phasem_w1,phasem_w2,...]。
phase_pos=
[[phase1_p1,phase_p2,...],
[phase2_p1,phase2_p2,...],...,
[phasem_p1,phasem_p2,...]。
统计词性序列phase_pos的词性序列及出现次数;
可能统计结果有[n,n,n]的词性序列出现了count1次;[a,n]词性序列有count2次,[n,a] 词性序列出现了count3次,统计结束后保留词性序列大于设定阈值的项。
根据词性序列模型,在给定文本的分词结果中提取所有可能的原语。
根据上个步骤得到的词性序列,建立trie树。
由trie树结合双向匹配的方法去匹配语料的词性结果,同时满足原语至少4个字符, 最后得到候选原语分词。[[candi_word1,candi_word2,...],...]。使用trie树的目的是 能够更快得到原语候选词。
根据候选原语,在文本中提取所有可能的候选缩略语。可选用正则表达式或其它类似文 本匹配方法。按照以下规则过滤掉一些不满足条件的候选缩略语:
规则1:缩略语的字数大于2;
规则2:缩略语中字的出现顺序必须和原语的顺序一致;
规则3:缩略语中的字必须出现在原语中,中间不夹杂其它字。
最终得到若干个候选原语,每个候选原语对应一个或多个缩略语格式为:
某一个原语:[phase2_w1,phase2_w2,...];
原语对应的缩略语:[[abb_char1,abb_char2,...],...];
训练监督式词向量和同义词关系分类器:
第一步,导入已训练的模型。
第二步,根据分词结果继续训练监督式模型,模型参数在已有基础上更新。
第三步,根据包含候选原语和缩略语的语料,调整分词结果,继续训练监督式模型,模 型参数在已有基础上更新。同时,候选词不加入到词与词关系中学习。
第四步,继续上述第二步和第三步,直到模型达到相对较好的评测结果。
在候选原语和候选缩略语关系判定时,按照以下步骤:
首先,所有候选词提取词向量。
然后,将每一组候选原语词向量和候选缩略语的词向量,输入词关系分类子模型中,判 断是否是同义。如果是,则代表是原语。
采用以上方法进行缩写识别,对比现有的缩写识别方法:首先,应用面更广,不光识别 实体名词及缩写,还包括常用短语的原语和缩写识别;包含了原语和缩写候选词的识别。其 次,更准确:加入了监督式的词向量语义模型,该模型能够学习出词词关系,降低同位词、 上下位词对传统词向量word2vector的干扰。
利用以上方法构建的基于监督词向量的文本缩写识别系统,包括中央处理器以及与中央 处理器网络连接的数据库、输入端和输出端。
所述输入端,用来供给定文本输入;
所述输出端,用来输出给定文本中的所有原语和对应的缩略语;
所述数据库,设置有对应关系表和多个缩略语词典;所述对应关系表包括多个缩略语和 原语关系对;对应关系表中的缩略语和原语关系对包括缩略语词典中的缩略语和原语关系 对;所述数据库内设置有词性标记表,所述词性标记表包括表示词性的字母以及对应的数值;
所述中央处理器,设置有监督词向量模型;所述监督词向量模型,包括词向量模型和同 义词关系分类器;
所述中央处理器按照词性标记表将对应关系表中的所有原语进行词性标记得到多个原 语词性序列组成的原语词性序列集合;
所述中央处理器将接收到的给定文本分词得到多个待确认词;中央处理器按照词性标记 表将每个待确认词进行词性标记形成多个待确认词词性序列组成的待确认词性序列集合;中 央处理器将每个待确认词性序列分别与原语词性序列集合中的原语词性序列进行对比,中央 处理器选出与原语词性序列相同的所有待确认词词性序列;中央处理器将这些待确认词词性 序列对应的待确认词作为候选原语;
中央处理器根据预设的缩略语筛选规则,从给定文本中筛选与候选原语对应的候选缩略 语;若按照缩略语筛选规则,在给定文本中无法找到与某些候选原语对应的候选缩略语,则 删除这些候选原语;
中央处理器将对应的候选原语和候选缩略语通过同义词关系分类器计算相似度,中央处 理器将所有通过相似度计算结果满足预设要求的候选原语和候选缩略语作为原语和缩略发 送给输出端。
实施例二
本实施例中的基于监督词向量的文本识别方法,包括以下步骤:
步骤一,按照缩略语词典建立原语和缩略语的对应关系表,按照对应关系表构建同义词 关系分类器;
步骤二,标记对应关系表中的所有原语和缩略语的词性;将组成原语的文本顺序分词, 并对应每个词语的词性顺序标记形成原语词性序列;将组成缩略语的文本顺序分词,并对应 每个词语的词性顺序标记形成缩略语词性序列;
步骤三,将给定文本分词并进行词性标注;
步骤四,按照对应关系表中的原语词性序列从给定文本中选取符合其排列顺序的词文本 作为候选原语;按照对应关系表中缩略语词性序列从给定文本中选取符合其排列顺序的词文 本作为候选缩略语;
步骤五,将候选原语和候选缩略语分别输入到关系分类器中进行关系计算,将关系相似 度在预设范围内的候选原语和候选缩略语,作为新增的原语和缩略语增加到对应关系表中。
其中,向关系分类器输入某一缩略语或者原语作为输入项,首先从对应关系表中寻找是 否有与该输入项匹配的原语或者缩略语作为输出项;若对应关系表中没有与输入项匹配的输 出项,则按照步骤二至步骤五从包含该输入项中的给定文本中寻找输出项。
无论输入的是缩略语还是原语,只要对应关系表中记载了,都能通过其查到对应的输出 项,能够快速实现缩写识别。如果是对应关系表中没有出现过的新文本,则直接在包含该输 入项的文本中进行查找,能够更加准确地找到与之匹配的缩略语或者原语作为输出项,而在 识别的同时又能为对应关系表更新补充新的原语缩略语对应关系。
其中,在步骤二中,通过word2vec对保存在对应关系表中的所有词文本分词,将所有 原语词性序列组合形成原语词性序列集合,将所有缩略语词性序列组合形成缩略语词性序列 集合。
在分词的时候,用word2vec进行分词,既能运用到现有技术手段,又为后面准确的关 系计算做准备。而将对应关系表保存的所有原语和缩略语对应形成原语词性序列集合和缩略 语词性序列集合,有助于在识别候选原语和候选缩略语时进行对比。
其中,在步骤二中,原语词性序列和缩略语词性序列按照词性标记表标记;所述词性标 记表包括多个词性以及每个词性对应的字母和数值。
每个词性都用单独的字母和数值进行表示,通过字母可以使一个原语词性序列或者缩略 语词性序列变为一个字母组合的向量,而通过每一个字母对应的数值,能够将该向量换算成 向量值,便于后面的计算。
其中,在步骤二中进行分词的时候,按照多维属性将分词的每个词语形成多维词向量; 得到的词向量中的一个维度为关系近似度。
关系近似度为词向量中的一个表征维度,更加有利于后面在准确地进行关系计算,相比 于现有的缩写识别方法,本方法从语义和词语关系上进行判断能够得到更加准确的缩写识别 结果。
其中,所述同义词关系分类器包括依次连接的输入层、拼接层、全连接层以及概率层; 所述输入层用来供两个词向量输入,所述拼接层用来将两个词向量按照预设公式进行拼接, 所述全连接层用来根据网络系数按照预设公式计算两个词向量之间的相似概率,所述概率层 用来呈现两个词向量的相似概率;所述网络系数随着输入词向量的增多而不断优化。
同义词关系分类器随着样本的增多不断更新,使得词关系计算得越来越准确。
其中,步骤五中的预设范围为关系相似度在百分之九十以上且关系相似度值最大。
预设范围为一个初选范围,当满足条件的有多组时,选取关系相似度值最大即相似度最 近的一组作为新增的原语和缩略语完成识别和新增。
其中,步骤四中,候选原语和候选缩略语的选择中,当某一词性序列出现次数达到所有 词性序列总出现次数的三分之一以上时可以被选中为候选原语或者候选缩略语。
在包括对应关系表和给定文本在内的所有词性序列出现的次数中,给定文本中的原语词 性序列中出现次数占总次数三分之一以上的为候选原语序列,给定文本中的缩略语词性序列 出现次数占总次数三分之一以上的为候选缩略语序列。
本实施例的方法通过对现有缩略语词典中原语和缩略语词性的标记形成原语词性序列 和缩略语词性序列,在进行缩写识别的时候,优先从包含缩略语的给定文本中,按照原语词 性序列和缩略语词性序列找出候选原语和候选缩略语。再用关系分类器计算各个候选原语和 候选缩略语的关系近似度,将在预设范围内的候选原语和候选缩略语作为新增的原语和缩略 语增加到对应关系表汇中,即在完成缩略语识别的同时,将被识别成功的缩略语和原语作为 新增对象增加到表征缩略语和原语关系的对应关系表中。本方法有效保证了在缩写识别准确 性的同时,不断更新新词汇,使在保证识别准确性的前提下,增加了不断更新识别内容的功 能。
具体地,包括以下步骤:
S1,按照现有的缩略语词典,如《csc》词典、《hownet》、《大词林》等中已经记载 了的原语和缩略语,建立原语和缩略语的对应关系表,按照对应关系表构建并训练同义词关系分类器;对应关系表包括多个原语和多个缩略语,一个原语可能对应多个缩略语,一个缩略语也可能对应多个原语;对应关系表中包括了原语与其缩略语的对应关系,通过对应关系 表能够快速识别出一对已经记载了的原语和缩略语。
其中,同义词关系分类器具体包括依次连接的输入层、拼接层、全连接层fullyconnectedlayer以及概率层softmax。
将原语向量化形成原语向量Wi,将缩略语向量化形成缩略语向量Wk,分别将原语向量 Wi和缩略语向量Wk从输入层进入同义词关系分类器,然后进入拼接层,两个向量按照基本 的数学公式重组特征形成行向量,重组后的行向量为Wi Wk Wi-Wk Wi°Wk Cos(Wi,Wk),再 通过全连接层的网络重新映射,最后由softmax分类器实现词关系分类和误差计算,得到按 照预定维度设置的两个词向量之间的关系。预定维度指的是将原语向量和缩略语向量按照指 定属性项进行向量化。本实施例中,原语和缩略语可以分别按照三个维度进行向量特征化, 这三个维度分别为主体属性、词性序列、备注属性,其中主体属性包括实体名称、学术名称、 行政计划名称、社会事件名称等,词性序列首先分别用字母代替名称、形容词、动词等词性, 然后针对每一个原语或者缩略语,顺序分词,用字母组合完成对该词的词性序列对应,其中 每个字母组合都事先规定好了数值,能够将每个词性序列都换算成对应的向量值,方便后面 对原语向量和缩略语向量进行向量计算。
S2,形成词性序列:针对对应关系表中包含的所有原语和缩略语,顺序标记组成单个原 语的所有词语的词性,形成原语词性序列;顺序标记组成单个缩略语的所有词语的词性,形 成缩略语词性序列;
S3,形成词性序列集合:将预设的缩略语词典中的所有原语形成的原语词性序列组合起 来,形成原语词性序列集合;将预设的缩略语词典中的所有缩略语形成的缩略语词性序列组 合起来,形成缩略语词性序列集合;
按照预设的缩略语词典中原语和缩略语的对应关系,将原语词性序列和缩略语词性序列 进行对应;通过单个原语词性序列和单个缩略语词性序列的对应关系,将原语词性序列集合 和缩略语词性序列集合对应起来;
S4,在接收到给定文本后,将该文本进行分词得到词片段,同时将每个词片段进行词性 标;这里的给定文本指的是包含有需要识别的缩略语的对应文本;
S5,按照原语词性序列集合中的原语词性序列,将给定文本中所有词片段按照其文本顺 序依次组合形成多个候选原语;按照缩略语词性序列集合中的缩略语序列,将给定文本所有 词片段按照其文本顺序依次组合形成多个候选缩略语;
其中,将在该给定文本中出现次数在指定次数以上的原语词性序列作为选择候选原语的 条件;即候选原语的词性序列应该与已有的词性序列相同,且该候选原语的词性序列的出现 次数在所有原语词性序列中出现的次数大于各种原语词性序列总出现次数的三分之一以上。
同样的,将包括对应关系表和给定文本在内的所有缩略语词性序列出现次数作为缩略语 总出现次数,将给定文本中缩略语词性序列出现次数达到缩略语总出现次数三分之一以上的 缩略语词性序列作为候选缩略语词性序列。
S6,通过已经训练好的同义词关系分类器将候选原语和候选缩略语进行关系计算,将关 系相似度在预设范围内的候选原语和候选缩略语,作为新增的原语和缩略语增加到对应关系 表中;
S7,向同义词关系分类器输入某一缩略语或者原语作为输入项,关系分类器依次计算该 输入项所在给定文本的所有候选原语与该缩略语的关系近似度或者是所有候选缩略语与该 原语的关系近似度,若计算的关系近似度达到预设范围,则将该关系近似度对应的候选原语 作为该缩略语对应的输出项或者是将对应的候选缩略语作为该原语对应的输出项,同时将这 一组缩略语和原语新增到对应关系表中。
通过本方法能够不断根据给定文本补充更新原语和缩略语,避免了使用现有缩略语词典 的局限性,同时又通过同义词关系分类器计算候选原语和候选关系后再确定是否成为一对原 语和缩略语,增加了判断的准确性。
利用以上方法构建的基于监督词向量的文本缩写识别系统,包括中央处理器以及与中央 处理器网络连接的数据库、输入端和输出端;
所述输入端,用来供作为输入项的缩略语或者原语输入;
所述输出端,用来供经过识别选出的输出项输出,所述输出项为与输入项对应的原语或 者缩略语;
所述数据库,设置有对应关系表和多个缩略语词典;所述对应关系表包括多个缩略语和 原语关系对;对应关系表中的缩略语和原语关系对包括缩略语词典中的缩略语和原语关系 对;所述数据库内设置有词性标记表,所述词性标记表包括表示词性的字母以及对应的数值;
所述中央处理器,设置有同义词关系分类器;所述中央处理器接收输入端传递来的输入 项,将输入项与数据库中的对应关系表进行匹配,找出与该输入项对应的输出项并发送给输 出端;
若中央处理器无法在对应关系表中寻找到输出项,则中央处理器将输入端传递来的包含 输入项的给定文本进行分词;中央处理器将给定文本中的所有词文本和对应关系表中的所有 词文本按照词性标记表进行标记得到词性序列;其中,对应关系表中的原语标记后得到原语 词性序列,对应关系表中的缩略语标记后得到缩略语词性序列;中央处理器将给定文本中的 词性序列分别与原语词性序列和缩略语词性序列进行对比,中央处理器判断输入项属于原语 词性序列还是缩略语词性序列后确定输出项属于原语词性序列还是缩略语词性序列;中央处 理器将给定文本中满足输出项的所有词性序列与原语词性序列或者缩略语词性序列进行对 比,将选出候选原语或者候选缩略语;中央处理器将候选原语或者候选缩略语与输入项一起 通过同义词关系分类器计算关系相似度,将关系相似度在预设范围内的候选原语或者候选缩 略语作为输出项发送给输出端;
中央处理器在将输出项发送给输出端的同时,将输入项和输出项作为新增的原语和缩略 语关系对存储到对应关系表中。
以上说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (8)

1.一种基于监督词向量的文本缩写识别方法,其特征在于:包括以下步骤:
步骤一,训练得到监督词向量模型;所述监督词向量模型,包括词向量模型和同义词关系分类器;
步骤二,标记现有缩略语词典的原语词性,形成原语词性序列;
步骤三,对给定文本进行词性计算;
步骤四,选出给定文本的候选原语和候选缩略语;
步骤五,将候选原语和候选缩略语分别输入到监督词向量模型的同义词关系分类器中进行相似度计算;将关系相似度在预设范围内的候选原语和候选缩略语,作为新增的原语和缩略语增加到对应关系表中;预设范围为关系相似度在百分之九十以上且关系相似度值最大;
步骤六,获得原语和缩略语;
在步骤四中,先根据原语词性序列从给定文本中找到候选原语,再从候选原语中根据缩略语筛选规则筛选候选缩略语;
缩略语筛选规则为同时满足以下条件:
条件1:缩略语的字数大于2;
条件2:缩略语中字符的出现顺序必须和原语中的顺序一致;
条件3:缩略语中的字符必须出现在对应的原语中,且中间不夹杂其它字符。
2.根据权利要求1所述的基于监督词向量的文本缩写识别方法,其特征在于:在步骤四中,选出的候选原语,是从给定文本中根据对应的候选原语选择出来的正则表达式。
3.根据权利要求1所述的基于监督词向量的文本缩写识别方法,在步骤二中,先将现有缩略语词典中的所有原语分别进行分词,用字母标记每个原语中各个分词的词性,按照原语分词顺序排列的字母序列就是原语词性序列;将所有原语词性序列组合形成原语词性序列集合。
4.根据权利要求3所述的基于监督词向量的文本缩写识别方法,其特征在于:在步骤三中,先将给定文本分词形成多个待确认词;将待确认词按照步骤二中的方法进行词性标记形成多个待确认词词性序列。
5.根据权利要求4所述的基于监督词向量的文本缩写识别方法,其特征在于:将每个待确认词词性序列和原语词性序列集合中的原语词性序列进行对比,选出与原语词性序列相同的待确认词词性序列;这些被选出的待确认词词性序列对应的待确认词则为候选原语。
6.根据权利要求1所述的基于监督词向量的文本缩写识别方法,其特征在于:在步骤二中,原语词性序列按照词性标记表标记;所述词性标记表包括多个词性以及每个词性对应的字母和数值。
7.根据权利要求1所述的基于监督词向量的文本缩写识别方法,其特征在于:在步骤四中,在候选原语中删除没有找到对应候选缩写语的候选原语。
8.一种基于监督词向量的文本缩写识别系统,其特征在于:采用权利要求1所述的基于监督词向量的文本缩写识别方法,包括中央处理器以及与中央处理器网络连接的数据库、输入端和输出端;
所述输入端,用来供给定文本输入;
所述输出端,用来输出给定文本中的所有原语和对应的缩略语;
所述数据库,设置有对应关系表和多个缩略语词典;所述对应关系表包括多个缩略语和原语关系对;对应关系表中的缩略语和原语关系对包括缩略语词典中的缩略语和原语关系对;所述数据库内设置有词性标记表,所述词性标记表包括表示词性的字母以及对应的数值;
所述中央处理器,设置有监督词向量模型;所述监督词向量模型,包括词向量模型和同义词关系分类器;
所述中央处理器按照词性标记表将对应关系表中的所有原语进行词性标记得到多个原语词性序列组成的原语词性序列集合;
所述中央处理器将接收到的给定文本分词得到多个待确认词;中央处理器按照词性标记表将每个待确认词进行词性标记形成多个待确认词词性序列组成的待确认词性序列集合;中央处理器将每个待确认词性序列分别与原语词性序列集合中的原语词性序列进行对比,中央处理器选出与原语词性序列相同的所有待确认词词性序列;中央处理器将这些待确认词词性序列对应的待确认词作为候选原语;
中央处理器根据预设的缩略语筛选规则,从给定文本中筛选与候选原语对应的候选缩略语;若按照缩略语筛选规则,在给定文本中无法找到与某些候选原语对应的候选缩略语,则删除这些候选原语;
中央处理器将对应的候选原语和候选缩略语通过同义词关系分类器计算相似度,中央处理器将所有通过相似度计算结果满足预设要求的候选原语和候选缩略语作为原语和缩略发送给输出端。
CN201811642859.7A 2018-12-29 2018-12-29 一种基于监督词向量的文本缩写识别方法及系统 Active CN109614493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811642859.7A CN109614493B (zh) 2018-12-29 2018-12-29 一种基于监督词向量的文本缩写识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811642859.7A CN109614493B (zh) 2018-12-29 2018-12-29 一种基于监督词向量的文本缩写识别方法及系统

Publications (2)

Publication Number Publication Date
CN109614493A CN109614493A (zh) 2019-04-12
CN109614493B true CN109614493B (zh) 2023-02-03

Family

ID=66015956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811642859.7A Active CN109614493B (zh) 2018-12-29 2018-12-29 一种基于监督词向量的文本缩写识别方法及系统

Country Status (1)

Country Link
CN (1) CN109614493B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209755B (zh) * 2019-06-13 2021-06-18 思必驰科技股份有限公司 Poi导航地址的扩展方法及系统
CN112257446A (zh) * 2020-10-20 2021-01-22 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及可读存储介质
CN113887221B (zh) * 2021-09-15 2024-07-23 北京三快在线科技有限公司 一种模型训练以及关键词分类方法及装置
CN117555995B (zh) * 2024-01-11 2024-04-12 北京领初医药科技有限公司 一种分级式缩略语句匹配确认方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093478A (zh) * 2007-07-25 2007-12-26 中国科学院计算技术研究所 一种根据实体的汉语简称识别汉语全称的方法及系统
JP2011227749A (ja) * 2010-04-21 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> 略語完全語復元装置とその方法と、プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093478A (zh) * 2007-07-25 2007-12-26 中国科学院计算技术研究所 一种根据实体的汉语简称识别汉语全称的方法及系统
JP2011227749A (ja) * 2010-04-21 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> 略語完全語復元装置とその方法と、プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于统计的汉语缩略语还原方法研究与实现;张钰;《中国优秀硕士学位论文全文数据库(硕士)信息科技辑》;20170315;第33-46页 *
自由文本中汉语缩略语的自动抽取;张雷瀚 等;《计算机工程与设计》;20140430;第1372-1378页 *

Also Published As

Publication number Publication date
CN109614493A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN112069298B (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN109614493B (zh) 一种基于监督词向量的文本缩写识别方法及系统
CN107451126B (zh) 一种近义词筛选方法及系统
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
CN107168956B (zh) 一种基于管道的中文篇章结构分析方法及系统
CN113268569B (zh) 基于语义的关联词查找方法及装置、电子设备、存储介质
CN108614897B (zh) 一种面向自然语言的内容多样化搜索方法
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN109684928B (zh) 基于互联网检索的中文文档识别方法
CN112925918B (zh) 一种基于疾病领域知识图谱的问答匹配系统
CN109948144A (zh) 一种基于课堂教学情境的教师话语智能处理的方法
CN111191464A (zh) 基于组合距离的语义相似度计算方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN112417170A (zh) 面向不完备知识图谱的关系链接方法
CN115017335A (zh) 知识图谱构建方法和系统
CN114036929A (zh) 一种基于多模型特征融合的全简称匹配的方法
CN117591635A (zh) 一种用于大模型问答的文本分割检索方法
CN116757188A (zh) 一种基于对齐查询实体对的跨语言信息检索训练方法
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.
CN117057346A (zh) 一种基于加权TextRank和K-means的领域关键词抽取方法
CN114491001B (zh) 一种军事领域下的实体搜索方法
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240709

Address after: Room 209, First Floor, No. 364 Industrial Avenue Middle Road, Haizhu District, Guangzhou City, Guangdong Province, 510220

Patentee after: Guangzhou Youyi Information Technology Co.,Ltd.

Country or region after: China

Address before: 401120 No. 1, Floor 3, Building 11, Internet Industrial Park, No. 106, West Section of Jinkai Avenue, Yubei District, Chongqing

Patentee before: CHONGQING XIEZHI TECHNOLOGY Co.,Ltd.

Country or region before: China