CN109492224A - 一种词表构建的方法及装置 - Google Patents

一种词表构建的方法及装置 Download PDF

Info

Publication number
CN109492224A
CN109492224A CN201811317879.7A CN201811317879A CN109492224A CN 109492224 A CN109492224 A CN 109492224A CN 201811317879 A CN201811317879 A CN 201811317879A CN 109492224 A CN109492224 A CN 109492224A
Authority
CN
China
Prior art keywords
screened
word
vocabulary
mutual information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811317879.7A
Other languages
English (en)
Other versions
CN109492224B (zh
Inventor
李长亮
廖敏鹏
齐济
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Kingsoft Interactive Entertainment Co Ltd
Beijing Jinshan Digital Entertainment Technology Co Ltd
Original Assignee
Chengdu Kingsoft Interactive Entertainment Co Ltd
Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kingsoft Interactive Entertainment Co Ltd, Beijing Jinshan Digital Entertainment Technology Co Ltd filed Critical Chengdu Kingsoft Interactive Entertainment Co Ltd
Priority to CN201811317879.7A priority Critical patent/CN109492224B/zh
Publication of CN109492224A publication Critical patent/CN109492224A/zh
Application granted granted Critical
Publication of CN109492224B publication Critical patent/CN109492224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种词表构建的方法及装置,所述方法包括:读取目标语料;计算目标语料中每两个相邻字之间的互信息,根据互信息大于等于0的至少两个相邻字生成待筛选词,并根据待筛选词生成第一待筛选词表;计算所述第一待筛选词表中的各个待筛选词的凝聚度,并将凝聚度小于第一阈值的待筛选词删除得到第二待筛选词表;计算所述第二待筛选词表中的每个所述待筛选词的自由度,并将自由度小于第二阈值的待筛选词删除得到第三待筛选词表;输出所述第三待筛选词表。本申请提供的中文词表构建方法通过综合互信息、凝聚度和自由度进行对目标语料进行词表构建,降低了算法复杂度,长词识别能力强,提高了算法的效率和准确率。

Description

一种词表构建的方法及装置
技术领域
本申请涉及文字识别技术领域,特别涉及一种词表构建的方法及装置、计算设备和计算机可读存储介质和芯片。
背景技术
词作为自然语言处理的基本单位,代表了一个语义单元。在中文信息处理领域,由于中文自身的特点,它不像英文那样在词与词之间有空格间隔,因此,词表构建是一项很重要的基础工作,它直接决定了自然语言处理系统的性能好坏。因此,针对特定语料词表构建具有重要的意义。
词表构建是指从文本语料中以自动或半自动的方式获得词的过程,其中,半自动的方式指的是需要适度的进行人工干预。对于词表构建的方法,目前广泛采用的包括基于统计和基于规则两种方法。
基于统计的方法是通过多种统计策略,从语料库中找出最相关的字串组合。这种方法的缺点是算法复杂度较高、构建的词表准确率较低的情况。
基于规则的方法需要借用领域专家的知识构造词语来学习词性、语义信息,形成规则模板,使用实验数据和这些规则模板进行匹配,最终实现词表构建,是一种监督方法。基于规则的方法一般是针对特定的领域,需要消耗大量的人力、物力来获得规则模板,可移植性不佳。
目前,上述词表构建的方法,例如Ngram算法没有识别长词的能力,而在公文等专业术语较多的语料中,长词的出现是不可避免的。因此,在公文等专业术语较多的语料中,通过上述词表构建的方法得到的词表的准确度较低,严重影响着后续自然语言处理系统的性能。
发明内容
有鉴于此,本申请实施例提供了一种词表构建的方法及装置、计算设备和计算机可读存储介质和芯片,以解决现有技术中存在的技术缺陷。
本申请一实施例公开了一种词表构建的方法,所述方法包括:
读取目标语料;
计算目标语料中每两个相邻字之间的互信息,根据互信息大于等于0的至少两个相邻字生成待筛选词,并根据待筛选词生成第一待筛选词表;
计算所述第一待筛选词表中的各个待筛选词的凝聚度,并将凝聚度小于第一阈值的待筛选词删除得到第二待筛选词表;
计算所述第二待筛选词表中的每个所述待筛选词的自由度,并将自由度小于第二阈值的待筛选词删除得到第三待筛选词表;
输出所述第三待筛选词表。
在本申请的一个示意性的实施方案中,所述目标语料中每两个相邻字之间的互信息通过两个相邻字在目标语料中分别出现的概率以及相邻出现的概率计算而得。
在本申请的一个示意性的实施方案中,所述目标语料包括至少一个文本子序列;根据互信息大于等于0的至少两个相邻字生成待筛选词,包括:
a1、确定在加载的文本子序列中的开始位置i和结束位置j,计算第i个字和第j个字之间的互信息,若互信息≥0,执行步骤a2,若互信息<0,执行步骤a4,其中,i,j均为正整数,i≥1,j=i+1;
a2、将结束位置j自增1,并计算第j-1个字和第j个字之间的互信息,若互信息≥0,继续执行步骤a2,若互信息<0,执行步骤a3;
a3、将第i个字至第j-1个字之间任意相邻的至少两个字作为待筛选词,然后执行步骤a4;
a4、判断结束位置j是否到达文本子序列的结束位置,若是,执行步骤a6,若否,执行步骤a5;
a5、取i=j,返回步骤a1;
a6、判断当前加载的文本子序列是否为最后一个文本子序列,若是,执行步骤a8,若否,执行步骤a7;
a7、加载下一个文本子序列,并返回步骤a1;
a8、结束流程。
在本申请的一个示意性的实施方案中,所述步骤a3包括:
a31、将所述文本子序列中的第i个字至第k个字作为待筛选词,其中,k为正整数且i+1≤k≤j-1;
a32、将i自增1,判断自增1后的i是否小于j,若是,继续执行步骤a31,若否,执行步骤a4。
在本申请的一个示意性的实施方案中,根据待筛选词生成第一待筛选词表,包括:
判断所述第一待筛选词表是否存在该待筛选词中;
若否,则将该待筛选词加入至第一待筛选词表中;
若是,丢弃该待筛选词。
在本申请的一个示意性的实施方案中,计算所述第一待筛选词表中的各个待筛选词的凝聚度,包括:
计算所述待筛选词中的前p个字在目标语料中的出现概率以及后q个字在目标语料中的出现概率,然后计算得到所述待筛选词的凝聚度,其中,p,q均为正整数,且1≤m,q≤待筛选词的字数。
在本申请的一个示意性的实施方案中,所述第一阈值通过以下公式计算:
thresi=T0ek(len(w)-2)
其中,thresi代表第一阈值;T0为设定的初始值;
len(W)为待筛选词的字数;k为设定的参量。
在本申请的一个示意性的实施方案中,所述待筛选词的自由度通过所述待筛选词的左邻字和右邻字在目标语料中分别出现的概率计算而得。
本申请一实施例公开了一种词表构建的装置,所述装置包括:
语料读取模块,用于读取目标语料;
第一待筛选词表生成模块,用于计算目标语料中每两个相邻字之间的互信息,根据互信息大于等于0的至少两个相邻字生成待筛选词,并根据待筛选词生成第一待筛选词表;
第二待筛选词表生成模块,用于计算所述第一待筛选词表中的各个待筛选词的凝聚度,并将凝聚度小于第一阈值的待筛选词删除得到第二待筛选词表;
第三待筛选词表生成模块,用于计算所述第二待筛选词表中的每个所述待筛选词的自由度,并将自由度小于第二阈值的待筛选词删除得到第三待筛选词表;
输出模块,用于输出所述第三待筛选词表。
在本申请的一个示意性的实施方案中,所述第一待筛选词表生成模块通过两个相邻字在目标语料中分别出现的概率以及相邻出现的概率计算得到所述两个相邻字之间的互信息。
在本申请的一个示意性的实施方案中,所述目标语料包括至少一个文本子序列;
所述第一待筛选词表生成模块包括:
第一互信息计算模块,用于确定在加载的文本子序列中的开始位置i和结束位置j,计算第i个字和第j个字之间的互信息,若互信息≥0,执行第二互信息计算模块,若互信息<0,执行第一判断模块,其中,i,j均为正整数,i≥1,j=i+1;
第二互信息计算模块,用于将结束位置j自增1,并计算第j-1个字和第j个字之间的互信息,若互信息≥0,继续执行第二互信息计算模块,若互信息<0,执行待筛选词确定模块;
待筛选词确定模块,用于将第i个字至第j-1个字之间任意相邻的至少两个字作为待筛选词,然后执行第一判断模块;
第一判断模块,用于判断结束位置j是否到达文本子序列的结束位置,若是,执行第二判断模块,若否,执行赋值模块;
赋值模块,用于取i=j,返回第一互信息计算模块;
第二判断模块,用于判断当前加载的文本子序列是否为最后一个文本子序列,若是,执行结束模块,若否,执行序列加载模块;
序列加载模块,用于加载下一个文本子序列,并执行第一互信息计算模块;
结束模块,用于结束流程。
在本申请的一个示意性的实施方案中,所述待筛选词确定模块还被配置为:
待筛选词选择模块,用于将所述文本子序列中的第i个字至第k个字作为待筛选词,其中,k为正整数且i+1≤k≤j-1;
循环模块,用于将i自增1,判断自增1后的i是否小于j,若是,继续执行所述待筛选词选择模块,若否,执行第一判断模块。
在本申请的一个示意性的实施方案中,所述第一待筛选词表生成模块还被配置为:
所述第一待筛选词表生成模块判断所述第一待筛选词表是否存在该待筛选词中;
若否,则将该待筛选词加入至第一待筛选词表中;
若是,丢弃该待筛选词。
在本申请的一个示意性的实施方案中,所述第二待筛选词表生成模块计算所述第一待筛选词表中的各个待筛选词的凝聚度,包括:
所述第二待筛选词表生成模块计算所述待筛选词中的前p个字在目标语料中的出现概率以及后q个字在目标语料中的出现概率,然后计算得到所述待筛选词的凝聚度,其中,p,q均为正整数,且1≤m,q≤待筛选词的字数。
在本申请的一个示意性的实施方案中,所述第一阈值通过以下公式计算:
thresi=T0ek(len(w)-2)
其中,thresi代表第一阈值;T0为设定的初始值;
len(W)为待筛选词的字数;k为设定的参量。
在本申请的一个示意性的实施方案中,所述第三待筛选词表生成模块通过计算所述待筛选词的左邻字和右邻字在目标语料中分别出现的概率得到所述待筛选词的自由度。
本申请一实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现该指令被处理器执行时实现如上所述词表构建的方法的步骤。
本申请一实施例公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述词表构建的方法的步骤。
本申请一实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如上所述词表构建的方法的步骤。
本申请提供的中文词表构建方法及装置,通过综合互信息、凝聚度和自由度进行对目标语料进行词表构建,降低了算法复杂度,长词识别能力强,提高了算法的效率和准确率。
其中,利用互信息构建第一待筛选词表的优点在于:消除了人为设定词长度的限制,能够准确地发现和识别长词,提高词表准确率;筛选得到待筛选词,为后续处理提高了算法效率。
在通过凝聚度得到第二待筛选词表的优点在于:可以根据待筛选词的长度动态选择第一阈值进行筛选,提高了筛选精度,有效地提高了算法的效率。
其次,本实施例通过先计算目标语料中的每两个相邻字之间的互信息得到第一待筛选词表,再通过计算待筛选词的凝聚度对第一待筛选词表进行筛选得到第二待筛选词表,从而与Ngrams算法得到待筛选词的技术方案相比,减少了计算量。
再次,本实施例中通过自由度可以查看待筛选词在目标语料中的整体运用程度,进一步提高对待筛选词的筛选精度。
附图说明
图1是本申请实施例的计算设备的结构示意图;
图2是本申请实施例的词表构建的方法流程示意图;
图3是本申请实施例的词表构建的方法流程示意图;
图4是本申请实施例的词表构建的装置结构示意图;
图5是本申请实施例的词表构建的装置结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
语料:即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。通常,在统计自然语言处理中,实际上不可能观测到大规模的语言实例,所以简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。
在本申请中,提供了一种词表构建的方法及装置、计算设备、计算机可读存储介质和芯片,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的词表构建的方法的示意性流程图,包括步骤201至步骤205。
201、读取目标语料。
目标语料有多段文本构成,每段文本作为一个文本子序列。例如:
“同学们看看苹果叶子这么小是什么
苹果腐烂是什么原因
苹果叶发霉用什么药物预防及治疗
苹果的叶子都打卷好像干啦还有发黄是病么老师们看看是怎么回事即使施加了农药怎么也不管用”
上述语料中,包括四段文本,每一段文本作为一个文本子序列。
202、计算目标语料中每两个相邻字之间的互信息,根据互信息大于等于0的至少两个相邻字生成待筛选词,并根据待筛选词生成第一待筛选词表。
其中,两个字之间的互信息,表征的是两个字之间的关联程度。
具体地,所述目标语料中每两个相邻字之间的互信息通过两个相邻字在目标语料中分别出现的概率以及相邻出现的概率计算而得。
在一个具体实施方案中,目标语料中每两个相邻字之间的互信息通过以下公式(1)计算:
其中,a和b代表两个相邻字;
PMI(a,b)代表两个相邻字之间的互信息;
p(a,b)代表两个相邻字a和b在目标语料中相邻出现的概率;
p(a)代表字a在目标语料中的出现概率;
p(b)代表字b在目标语料中的出现概率。
以“苹果”为例,计算“苹”和“果”的互信息的过程中,需要统计“苹”在目标语料中的出现概率、“果”在目标语料中的出现概率、以及“苹果”在目标语料中的出现概率。
需要解释的是,本实施例中所提及的相邻字的字数大于等于2。例如“苹果”包括2个相邻字,“计算机”包括3个相邻字,“专利代理人”包括5个相邻字。
其中,参见图3,步骤202中,根据互信息大于等于0的至少两个相邻字生成待筛选词,包括以下步骤301~308:
301、确定在加载的文本子序列中的开始位置i和结束位置j,计算第i个字和第j个字之间的互信息,若互信息≥0,执行步骤302,若互信息<0,执行步骤304。
其中,i,j均为正整数,i≥1,j=i+1。
在初始取值的情形下,i值可以取1,j=i+1=2,即选择文本子序列的开始两个相邻字进行互信息的计算。
302、将结束位置j自增1,并计算第j-1个字和第j个字之间的互信息,若互信息≥0,继续执行步骤302,若互信息<0,执行步骤303。
303、将第i个字至第j-1个字之间任意相邻的至少两个字作为待筛选词,然后执行步骤304。
具体地,步骤303中将第i个字至第j-1个字之间任意相邻的至少两个字作为待筛选词,包括:
3031、将所述文本子序列中的第i个字至第k个字作为待筛选词,其中,k为正整数且i+1≤k≤j-1;
3032、将i自增1,判断自增1后的i是否小于j,若是,继续执行步骤3031,若否,执行步骤304。
304、判断结束位置j是否到达文本子序列的结束位置,若是,执行步骤306,若否,执行步骤305。
305、取i=j,返回步骤301。
306、判断当前加载的文本子序列是否为最后一个文本子序列,若是,执行步骤308,若否,执行步骤307。
307、加载下一个文本子序列,并返回步骤301。
308、结束流程。
下面以文本子序列“移动设备的触摸屏幕”为例对上述流程进行说明:
取i=1,j=i+1=2,对应的,取“移”和“动”两个字计算互信息,计算得到“移”和“动”的互信息≥0。
则取j=3,计算“动”和“设”两个字的互信息≥0,继续取j=4,计算“设”和“备”两个字的≥0,继续取j=5,计算“备”和“的”两个字的互信息<0,将“移”和“备”字之间任意相邻的至少两个字作为待筛选词。
其中,待筛选词包括“移动”、“移动设”、“移动设备”、“动设”、“动设备”和“设备”。
然后判断“的”字未到达文本子序列的结束位置,取i=5,继续计算“的”和“触”的互信息,……直至文本子序列结束。
本实施例中,在得到待筛选词后,还要生成第一待筛选词表。在第一待筛选词表的生成过程中,还需要避免重复的待筛选词的写入。所以,本步骤202中,根据待筛选词生成第一待筛选词表,包括:
判断所述第一待筛选词表是否存在该待筛选词;
若否,则将该待筛选词加入至第一待筛选词表中;
若是,丢弃该待筛选词。
203、计算所述第一待筛选词表中的各个待筛选词的凝聚度,并将凝聚度小于第一阈值的待筛选词删除得到第二待筛选词表。
其中,计算所述第一待筛选词表中的各个待筛选词的凝聚度,包括:
计算所述待筛选词中的前p个字在目标语料中的出现概率以及后q个字在目标语料中的出现概率,然后计算得到所述待筛选词的凝聚度,其中,p,q均为正整数,且1≤m,q≤待筛选词的字数。
本实施例中,凝聚度表征的是待筛选词中的相邻字之间的凝聚程度。若凝聚度高,则保留该待筛选词;若凝聚度低,则丢弃该待筛选词。
具体地,待筛选词的凝聚度根据以下公式(2)求得:
其中,Coa代表所述待筛选词的凝聚度;n代表待筛选词的字数;
代表所述待筛选词在目标语料中的出现概率;
代表所述待筛选词的前n-1个字在目标语料中的出现概率;
代表所述待筛选词的第一个字在目标语料中的出现概率;
代表所述待筛选词的前两个字在目标语料中的出现概率;
代表所述待筛选词的后n-1个字在目标语料中的出现概率;
代表所述待筛选词的最后一个字在目标语料中的出现概率。
以“移动设备”的待筛选词为例,在计算待筛选词的凝聚度的过程中,需要计算“移”、“移动”、“移动设”、“移动设备”、“动设备”、“设备”、“备”在目标语料中的出现概率,并最终根据公式(2)得到待筛选词的凝聚度值。
可选地,第一阈值可以为人为设定,也可以根据设定的参数进行计算。
在实际应用中,字数较多的词的出现概率可能比字数较少的词的出现概率小,那么随之计算得到的字数较多的词的凝聚度可能比字数较少的词的凝聚度低。如果设定第一阈值为一固定数值,有可能会出现将字数较多的词误删除的情况。所以,在本申请一实施例中,第一阈值通过以下公式(3)计算:
thresi=T0ek(len(w)-2) (3)
其中,thresi代表第一阈值;T0为设定的初始值;
len(W)为待筛选词的字数;k为设定的参量。
通过公式(3)可见,待筛选词的字数不同,其对应的第一阈值也会不同,从而可以动态地对第一阈值进行取值,提高筛选精度。
另外,本实施例中,凝聚度的计算量要比互信息的计算量要大,通过先计算目标语料中的每两个相邻字之间的互信息得到第一待筛选词表,再通过计算待筛选词的凝聚度对第一待筛选词表进行筛选得到第二待筛选词表,从而与先计算凝聚度再计算互信息得到待筛选词的技术方案相比,减少了计算量。
204、计算所述第二待筛选词表中的每个所述待筛选词的自由度,并将自由度小于第二阈值的待筛选词删除得到第三待筛选词表。
其中,自由度表征的是一个词的自由运用程度。前述步骤中的凝聚度,是从待筛选词内部的各个字在语料中的运用度对待筛选词进行筛选。为了使最后的结果更加精确,除去查看待筛选词的内部表现外,还需要查看待筛选词在目标语料中的外部整体表现。通过自由度可以查看待筛选词在目标语料中的整体运用程度。
本实施例中,所述待筛选词的自由度通过所述待筛选词的左邻字和右邻字在目标语料中分别出现的概率计算而得。
每个所述待筛选词的自由度,通过以下公式(4)实现:
其中,p(c)代表与每个待筛选词相邻字在目标语料中的出现概率;
L(c1,c2,…,cl)、R(c1,c2,…,cr)分别代表与每个待筛选词相邻的左侧字和右侧字。
例如“树上的叶子黄了”一句中,待筛选词为“叶子”的情形下,与该待筛选词“叶子”相邻字分别为位于“叶子”左侧的“的”和右侧的“黄”。
统计在目标语料中与待筛选词相邻字,然后分别计算与待筛选词相邻的左侧字和右侧字在目标语料中的出现概率,通过公式(4)得到每个待筛选词的自由度。
另外,第二阈值可以通过人为预先设定,例如设置为0.3。
205、输出所述第三待筛选词表。
本申请提供的中文词表构建方法,通过综合互信息、凝聚度和自由度进行对目标语料进行词表构建,降低了算法复杂度,长词识别能力强,提高了算法的效率和准确率。
其中,利用互信息构建第一待筛选词表的优点在于:消除了人为设定词长度的限制,能够准确地发现和识别长词,提高词表准确率;筛选得到待筛选词,为后续处理提高了算法效率。
在通过凝聚度得到第二待筛选词表的优点在于:可以根据预先设定的参数和待筛选词的长度动态选择第一阈值进行筛选,提高了筛选精度,有效地提高了算法的效率。
其次,本实施例通过先计算目标语料中的每两个相邻字之间的互信息得到第一待筛选词表,再通过计算待筛选词的凝聚度对第一待筛选词表进行筛选得到第二待筛选词表,从而与Ngrams算法分词后计算凝聚度的方式得到待筛选词的技术方案相比,减少了计算量。
再次,本实施例中通过自由度可以查看待筛选词在目标语料中的整体运用程度,进一步提高对待筛选词的筛选精度。
下面以一具体实施例对本申请的词表构建的方法进行说明。
实际使用时,为了得到较为精确的结果,往往需要大量的文本作为目标语料,例如10000句的文本。表1为根据目标语料得到的部分词表构建的结果。
表1
互信息分词 +凝聚度 +自由度 +凝聚度+自由度
国家79
国家旅30 × × ×
国家旅游30 × × ×
家旅30 × × ×
家旅游30 × × ×
家旅游局30 × × ×
旅游245
旅游局30
游局33 × × ×
关于119
关于废13 × ×
于废13 × ×
于废止13 × ×
废止19
的决150 × × ×
决定219
国家旅游局10
家旅游局令10 × × ×
旅游局令10 × ×
游局令10 × ×
局令16 × ×
其中,以文本子序列:《国家旅游局关于废止<导游人员管理实施办法>的决定中华人民共和国国家旅游局令第40号关于废止的决定》为例,本实施例的词表构建的方法包括:
1)计算第1个字“国”和第2个字“家”的互信息,得到“国”和“家”的互信息≥0,
2)继续计算“家”和“旅”的互信息,得到“家”和“旅”的互信息≥0,
3)继续计算“旅”和“游”的互信息,得到“旅”和“游”的互信息≥0,
4)继续计算“游”和“局”的互信息,得到“游”和“局”的互信息≥0,
5)继续计算“局”和“关”的互信息,得到“局”和“关”的互信息<0,将“国”至“局”之间任意相邻的至少两个字作为待筛选词,得到的待筛选词包括:国家、国家旅、国家旅游、国家旅游局、家旅、家旅游、家旅游局、旅游以及旅游局。
6)继续计算得到其他的待筛选词,直至到达文本子序列的结束位置。
其他的待筛选词可以根据前述实施例步骤301至305而获得,由于篇幅关系,本实施例便不再列举其他的待筛选词。
7)继续读取下一文本子序列,重复进行互信息、凝聚度和自由度的计算,直至全部文本语料的结束位置。
8)根据待筛选词生成第一待筛选词表。表2为包括本实施例中根据部分待筛选词生成的第一待筛选词表。
表2
9)计算所述第一待筛选词表中的各个待筛选词的凝聚度,并将凝聚度小于第一阈值的待筛选词删除得到第二待筛选词表。
参见表1中的第二列,对号表示该待筛选词的凝聚度大于等于第一阈值,错号表示该待筛选词的凝聚度小于第一阈值。根据表2所述的第一待筛选词表得到的第二待筛选词表如表3所示。
表3
9)计算第二待筛选词表中的每个所述待筛选词的自由度,并将自由度小于第二阈值的待筛选词删除得到第三待筛选词表。
参见表1中的第4列,对号表示第二待筛选词表中的待筛选词的自由度大于等于第二阈值,错号表示第二待筛选词表中的待筛选词的自由度小于第二阈值。根据表3所示的第二待筛选词表得到的第三待筛选词表如表4所示。
表4
由本实施例的方法可见,本实施例的中文词表构建方法通过综合互信息、凝聚度和自由度进行对目标语料进行词表构建,降低了算法复杂度,长词识别能力强,提高了算法的效率和准确率。
并且,本实施例通过先计算目标语料中的每两个相邻字之间的互信息得到第一待筛选词表,再通过计算待筛选词的凝聚度对第一待筛选词表进行筛选得到第二待筛选词表,从而与Ngrams算法得到待筛选词的技术方案相比,减少了计算量。
本申请一实施例还提供一种词表构建的装置,参见图4,包括:
语料读取模块401,用于读取目标语料;
第一待筛选词表生成模块402,用于计算目标语料中每两个相邻字之间的互信息,根据互信息大于等于0的至少两个相邻字生成待筛选词,并根据待筛选词生成第一待筛选词表;
第二待筛选词表生成模块403,用于计算所述第一待筛选词表中的各个待筛选词的凝聚度,并将凝聚度小于第一阈值的待筛选词删除得到第二待筛选词表;
第三待筛选词表生成模块404,用于计算所述第二待筛选词表中的每个所述待筛选词的自由度,并将自由度小于第二阈值的待筛选词删除得到第三待筛选词表;
输出模块405,用于输出所述第三待筛选词表。
可选地,所述第一待筛选词表生成模块402通过两个相邻字在目标语料中分别出现的概率以及相邻出现的概率计算得到所述两个相邻字之间的互信息。
可选地,所述目标语料包括至少一个文本子序列;
参见图5,第一待筛选词表生成模块402包括:
第一互信息计算模块4021,用于确定在加载的文本子序列中的开始位置i和结束位置j,计算第i个字和第j个字之间的互信息,若互信息≥0,执行第二互信息计算模块4022,若互信息<0,执行第一判断模块4024,其中,i,j均为正整数,i≥1,j=i+1;
第二互信息计算模块4022,用于将结束位置j自增1,并计算第j-1个字和第j个字之间的互信息,若互信息≥0,继续执行第二互信息计算模块4022,若互信息<0,执行待筛选词确定模块4023;
待筛选词确定模块4023,用于将第i个字至第j-1个字之间任意相邻的至少两个字作为待筛选词,然后执行第一判断模块4024;
第一判断模块4024,用于判断结束位置j是否到达文本子序列的结束位置,若是,执行第二判断模块4026,若否,执行赋值模块4025;
赋值模块4025,用于取i=j,返回第一互信息计算模块4021;
第二判断模块4026,用于判断当前加载的文本子序列是否为最后一个文本子序列,若是,执行结束模块4028,若否,执行序列加载模块4027;
序列加载模块4027,用于加载下一个文本子序列,并执行第一互信息计算模块4021;
结束模块4028,用于结束流程。
可选地,所述待筛选词确定模块4023还被配置为:
待筛选词选择模块,用于将所述文本子序列中的第i个字至第k个字作为待筛选词,其中,k为正整数且i+1≤k≤j-1;
循环模块,用于将i自增1,判断自增1后的i是否小于j,若是,继续执行所述待筛选词选择模块,若否,执行第一判断模块。
可选地,所述第一待筛选词表生成模块402还被配置为:
所述第一待筛选词表生成模块402判断所述第一待筛选词表是否存在该待筛选词中;
若否,则将该待筛选词加入至第一待筛选词表中;
若是,丢弃该待筛选词。
可选地,所述第二待筛选词表生成模块403计算所述第一待筛选词表中的各个待筛选词的凝聚度,包括:
所述第二待筛选词表生成模块403计算所述待筛选词中的前p个字在目标语料中的出现概率以及后q个字在目标语料中的出现概率,然后计算得到所述待筛选词的凝聚度,其中,p,q均为正整数,且1≤m,q≤待筛选词的字数。
可选地,第一阈值通过上述公式(3)计算而得。
可选地,所述第三待筛选词表生成模块404通过计算所述待筛选词的左邻字和右邻字在目标语料中分别出现的概率得到所述待筛选词的自由度。
本申请提供的词表构建的装置,通过综合互信息、凝聚度和自由度进行对目标语料进行词表构建,降低了算法复杂度,长词识别能力强,提高了算法的效率和准确率。
其中,利用互信息构建第一待筛选词表的优点在于:消除了人为设定词长度的限制,能够准确地发现和识别长词,提高词表准确率;筛选得到待筛选词,为后续处理提高了算法效率。
在通过凝聚度得到第二待筛选词表的优点在于:可以根据待筛选词的长度动态选择第一阈值进行筛选,提高了筛选精度,有效地提高了算法的效率。
其次,本实施例通过先计算目标语料中的每两个相邻字之间的互信息得到第一待筛选词表,再通过计算待筛选词的凝聚度对第一待筛选词表进行筛选得到第二待筛选词表,从而与Ngrams算法得到待筛选词的技术方案相比,减少了计算量。
上述为本实施例的一种词表构建的装置的示意性方案。需要说明的是,该词表构建的装置的技术方案与上述的中文词表构建方法的技术方案属于同一构思,词表构建的装置的技术方案未详细描述的细节内容,均可以参见上述中文词表构建方法的技术方案的描述。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
读取目标语料;
计算目标语料中每两个相邻字之间的互信息,根据互信息大于等于0的至少两个相邻字生成待筛选词,并根据待筛选词生成第一待筛选词表;
计算所述第一待筛选词表中的各个待筛选词的凝聚度,并将凝聚度小于第一阈值的待筛选词删除得到第二待筛选词表;
计算所述第二待筛选词表中的每个所述待筛选词的自由度,并将自由度小于第二阈值的待筛选词删除得到第三待筛选词表;
输出所述第三待筛选词表。
本申请一实施例还提供一种芯片,其存储有计算机指令,该指令被处理器执行时实现如上所述词表构建的方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述中文词表构建方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的中文词表构建方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述中文词表构建方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (19)

1.一种词表构建的方法,其特征在于,所述方法包括:
读取目标语料;
计算目标语料中每两个相邻字之间的互信息,根据互信息大于等于0的至少两个相邻字生成待筛选词,并根据待筛选词生成第一待筛选词表;
计算所述第一待筛选词表中的各个待筛选词的凝聚度,并将凝聚度小于第一阈值的待筛选词删除得到第二待筛选词表;
计算所述第二待筛选词表中的每个所述待筛选词的自由度,并将自由度小于第二阈值的待筛选词删除得到第三待筛选词表;
输出所述第三待筛选词表。
2.如权利要求1所述的词表构建的方法,其特征在于,所述目标语料中每两个相邻字之间的互信息通过两个相邻字在目标语料中分别出现的概率以及相邻出现的概率计算而得。
3.如权利要求1所述的词表构建的方法,其特征在于,所述目标语料包括至少一个文本子序列;
根据互信息大于等于0的至少两个相邻字生成待筛选词,包括:
a1、确定在加载的文本子序列中的开始位置i和结束位置j,计算第i个字和第j个字之间的互信息,若互信息≥0,执行步骤a2,若互信息<0,执行步骤a4,其中,i,j均为正整数,i≥1,j=i+1;
a2、将结束位置j自增1,并计算第j-1个字和第j个字之间的互信息,若互信息≥0,继续执行步骤a2,若互信息<0,执行步骤a3;
a3、将第i个字至第j-1个字之间任意相邻的至少两个字作为待筛选词,然后执行步骤a4;
a4、判断结束位置j是否到达文本子序列的结束位置,若是,执行步骤a6,若否,执行步骤a5;
a5、取i=j,返回步骤a1;
a6、判断当前加载的文本子序列是否为最后一个文本子序列,若是,执行步骤a8,若否,执行步骤a7;
a7、加载下一个文本子序列,并返回步骤a1;
a8、结束流程。
4.如权利要求3所述的词表构建的方法,其特征在于,所述步骤a3包括:
a31、将所述文本子序列中的第i个字至第k个字作为待筛选词,其中,k为正整数且i+1≤k≤j-1;
a32、将i自增1,判断自增1后的i是否小于j,若是,继续执行步骤a31,若否,执行步骤a4。
5.如权利要求1或3所述的词表构建的方法,其特征在于,根据待筛选词生成第一待筛选词表,包括:
判断所述第一待筛选词表是否存在该待筛选词中;
若否,则将该待筛选词加入至第一待筛选词表中;
若是,丢弃该待筛选词。
6.如权利要求1所述的词表构建的方法,其特征在于,计算所述第一待筛选词表中的各个待筛选词的凝聚度,包括:
计算所述待筛选词中的前p个字在目标语料中的出现概率以及后q个字在目标语料中的出现概率,然后计算得到所述待筛选词的凝聚度,其中,p,q均为正整数,且1≤m,q≤待筛选词的字数。
7.如权利要求1所述的词表构建的方法,其特征在于,所述第一阈值通过以下公式计算:
thresi=T0ek(len(w)-2)
其中,thresi代表第一阈值;
T0为设定的初始值;
len(W)为待筛选词的字数;
k为设定的参量。
8.如权利要求1所述的词表构建的方法,其特征在于,所述待筛选词的自由度通过所述待筛选词的左邻字和右邻字在目标语料中分别出现的概率计算而得。
9.一种词表构建的装置,其特征在于,所述装置包括:
语料读取模块,用于读取目标语料;
第一待筛选词表生成模块,用于计算目标语料中每两个相邻字之间的互信息,根据互信息大于等于0的至少两个相邻字生成待筛选词,并根据待筛选词生成第一待筛选词表;
第二待筛选词表生成模块,用于计算所述第一待筛选词表中的各个待筛选词的凝聚度,并将凝聚度小于第一阈值的待筛选词删除得到第二待筛选词表;
第三待筛选词表生成模块,用于计算所述第二待筛选词表中的每个所述待筛选词的自由度,并将自由度小于第二阈值的待筛选词删除得到第三待筛选词表;
输出模块,用于输出所述第三待筛选词表。
10.如权利要求9所述的词表构建的装置,其特征在于,所述第一待筛选词表生成模块通过两个相邻字在目标语料中分别出现的概率以及相邻出现的概率计算得到所述两个相邻字之间的互信息。
11.如权利要求9所述的词表构建的装置,其特征在于,所述目标语料包括至少一个文本子序列;
所述第一待筛选词表生成模块包括:
第一互信息计算模块,用于确定在加载的文本子序列中的开始位置i和结束位置j,计算第i个字和第j个字之间的互信息,若互信息≥0,执行第二互信息计算模块,若互信息<0,执行第一判断模块,其中,i,j均为正整数,i≥1,j=i+1;
第二互信息计算模块,用于将结束位置j自增1,并计算第j-1个字和第j个字之间的互信息,若互信息≥0,继续执行第二互信息计算模块,若互信息<0,执行待筛选词确定模块;
待筛选词确定模块,用于将第i个字至第j-1个字之间任意相邻的至少两个字作为待筛选词,然后执行第一判断模块;
第一判断模块,用于判断结束位置j是否到达文本子序列的结束位置,若是,执行第二判断模块,若否,执行赋值模块;
赋值模块,用于取i=j,返回第一互信息计算模块;
第二判断模块,用于判断当前加载的文本子序列是否为最后一个文本子序列,若是,执行结束模块,若否,执行序列加载模块;
序列加载模块,用于加载下一个文本子序列,并执行第一互信息计算模块;
结束模块,用于结束流程。
12.如权利要求11所述的词表构建的装置,其特征在于,所述待筛选词确定模块还被配置为:
待筛选词选择模块,用于将所述文本子序列中的第i个字至第k个字作为待筛选词,其中,k为正整数且i+1≤k≤j-1;
循环模块,用于将i自增1,判断自增1后的i是否小于j,若是,继续执行所述待筛选词选择模块,若否,执行第一判断模块。
13.如权利要求9或11所述的词表构建的装置,其特征在于,所述第一待筛选词表生成模块还被配置为:
所述第一待筛选词表生成模块判断所述第一待筛选词表是否存在该待筛选词中;
若否,则将该待筛选词加入至第一待筛选词表中;
若是,丢弃该待筛选词。
14.如权利要求9所述的词表构建的装置,其特征在于,所述第二待筛选词表生成模块计算所述第一待筛选词表中的各个待筛选词的凝聚度,包括:
所述第二待筛选词表生成模块计算所述待筛选词中的前p个字在目标语料中的出现概率以及后q个字在目标语料中的出现概率,然后计算得到所述待筛选词的凝聚度,其中,p,q均为正整数,且1≤m,q≤待筛选词的字数。
15.如权利要求9所述的词表构建的装置,其特征在于,所述第一阈值通过以下公式计算:
thresi=T0ek(len(w)-2)
其中,thresi代表第一阈值;T0为设定的初始值;
len(W)为待筛选词的字数;k为设定的参量。
16.如权利要求9所述的词表构建的装置,其特征在于,所述第三待筛选词表生成模块通过计算所述待筛选词的左邻字和右邻字在目标语料中分别出现的概率得到所述待筛选词的自由度。
17.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现该指令被处理器执行时实现权利要求1-8任意一项所述词表构建的方法的步骤。
18.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-8任意一项所述词表构建的方法的步骤。
19.一种芯片,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-8任意一项所述词表构建的方法的步骤。
CN201811317879.7A 2018-11-07 2018-11-07 一种词表构建的方法及装置 Active CN109492224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811317879.7A CN109492224B (zh) 2018-11-07 2018-11-07 一种词表构建的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811317879.7A CN109492224B (zh) 2018-11-07 2018-11-07 一种词表构建的方法及装置

Publications (2)

Publication Number Publication Date
CN109492224A true CN109492224A (zh) 2019-03-19
CN109492224B CN109492224B (zh) 2024-05-03

Family

ID=65693952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811317879.7A Active CN109492224B (zh) 2018-11-07 2018-11-07 一种词表构建的方法及装置

Country Status (1)

Country Link
CN (1) CN109492224B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125306A (zh) * 2019-12-10 2020-05-08 东软集团股份有限公司 一种确定中心词的方法、装置、设备及存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120182380A1 (en) * 2010-04-19 2012-07-19 Business Breakthrough Inc. Audio-visual terminal, viewing authentication system and control program
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN104572622A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种术语的筛选方法
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN105630890A (zh) * 2015-12-18 2016-06-01 北京中科汇联科技股份有限公司 基于智能问答系统会话历史的新词发现方法及系统
CN105786991A (zh) * 2016-02-18 2016-07-20 中国科学院自动化研究所 结合用户情感表达方式的中文情感新词识别方法和系统
CN106528524A (zh) * 2016-09-22 2017-03-22 中山大学 一种基于MMseg算法与逐点互信息算法的分词方法
CN106844741A (zh) * 2017-02-13 2017-06-13 哈尔滨工业大学 一种面向特定领域的问题解答方法
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN108021558A (zh) * 2017-12-27 2018-05-11 北京金山安全软件有限公司 关键词的识别方法、装置、电子设备和存储介质
CN108038119A (zh) * 2017-11-01 2018-05-15 平安科技(深圳)有限公司 利用新词发现投资标的的方法、装置及存储介质
US20180157863A1 (en) * 2015-06-29 2018-06-07 Beijing Kingsoft Internet Security Software Co., Ltd. Method and apparatus for storing privacy information based on application
US20180159971A1 (en) * 2015-06-11 2018-06-07 Beijing Kingsoft Internet Security Software Co., Ltd. Method and apparatus for generating unlocking interface, and electronic device
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120182380A1 (en) * 2010-04-19 2012-07-19 Business Breakthrough Inc. Audio-visual terminal, viewing authentication system and control program
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN104572622A (zh) * 2015-01-05 2015-04-29 语联网(武汉)信息技术有限公司 一种术语的筛选方法
US20180159971A1 (en) * 2015-06-11 2018-06-07 Beijing Kingsoft Internet Security Software Co., Ltd. Method and apparatus for generating unlocking interface, and electronic device
US20180157863A1 (en) * 2015-06-29 2018-06-07 Beijing Kingsoft Internet Security Software Co., Ltd. Method and apparatus for storing privacy information based on application
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN105630890A (zh) * 2015-12-18 2016-06-01 北京中科汇联科技股份有限公司 基于智能问答系统会话历史的新词发现方法及系统
CN105786991A (zh) * 2016-02-18 2016-07-20 中国科学院自动化研究所 结合用户情感表达方式的中文情感新词识别方法和系统
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN106528524A (zh) * 2016-09-22 2017-03-22 中山大学 一种基于MMseg算法与逐点互信息算法的分词方法
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法
CN106844741A (zh) * 2017-02-13 2017-06-13 哈尔滨工业大学 一种面向特定领域的问题解答方法
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN108038119A (zh) * 2017-11-01 2018-05-15 平安科技(深圳)有限公司 利用新词发现投资标的的方法、装置及存储介质
CN108021558A (zh) * 2017-12-27 2018-05-11 北京金山安全软件有限公司 关键词的识别方法、装置、电子设备和存储介质
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
丁祥武: "基于Spark的中文新词提取", 计算机工程与设计, vol. 38, no. 11, 16 November 2017 (2017-11-16), pages 3185 - 3191 *
吐尔地﹒托合提: "基于互信息的维吾尔文自适应组词算法", 《计算机应用研究》, vol. 30, no. 2, pages 429 - 431 *
吐尔地·托合提 等: ""基于互信息的维吾尔文自适应组词算法"", 《计算机应用研究》 *
吐尔地·托合提 等: ""基于互信息的维吾尔文自适应组词算法"", 《计算机应用研究》, vol. 30, no. 2, 10 October 2012 (2012-10-10), pages 429 - 431 *
夭荣朋: "基于改进互信息和邻接熵的微博新词发现方法", 《计算机应用》, vol. 36, no. 10, pages 2772 - 2776 *
赵秦怡 等: ""一种基于互信息的串扫描中文文本分词方法"", 《情报杂志》 *
赵秦怡 等: ""一种基于互信息的串扫描中文文本分词方法"", 《情报杂志》, 18 July 2010 (2010-07-18), pages 161 - 162 *
赵秦怡: "一种基于互信息的串扫描中文文本分词方法", 《情报杂志》, vol. 29, no. 7, pages 161 - 162 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125306A (zh) * 2019-12-10 2020-05-08 东软集团股份有限公司 一种确定中心词的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109492224B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN109740657B (zh) 一种用于图像数据分类的神经网络模型的训练方法与设备
CN109977428A (zh) 一种答案获取的方法及装置
CN107545889A (zh) 适用于模式识别的模型的优化方法、装置及终端设备
CN108804677A (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
CN109739995B (zh) 一种信息处理方法及装置
CN108959474B (zh) 实体关系提取方法
WO2020215683A1 (zh) 基于卷积神经网络的语义识别方法及装置、非易失性可读存储介质、计算机设备
CN107145485A (zh) 用于压缩主题模型的方法和装置
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
CN114020950B (zh) 图像检索模型的训练方法、装置、设备以及存储介质
CN110083729A (zh) 一种图像搜索的方法及系统
CN113220832A (zh) 一种文本处理方法及装置
CN107463935A (zh) 应用分类方法和应用分类装置
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN108509597A (zh) 文字商标注册成功率评估方法和系统
CN113239063B (zh) 一种图数据库更新方法及装置
CN110175338A (zh) 一种数据处理方法及装置
CN109492224A (zh) 一种词表构建的方法及装置
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
CN110245226A (zh) 企业行业分类方法及其装置
CN109978069B (zh) 降低ResNeXt模型在图片分类中过拟合现象的方法
CN111625858A (zh) 一种垂直领域下的智能化多模态数据脱敏方法和装置
CN116484220A (zh) 语义表征模型的训练方法、装置、存储介质及计算机设备
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
CN113535930B (zh) 模型训练方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant