CN111428498A - 专名词典的词条过滤方法及装置 - Google Patents
专名词典的词条过滤方法及装置 Download PDFInfo
- Publication number
- CN111428498A CN111428498A CN202010256719.7A CN202010256719A CN111428498A CN 111428498 A CN111428498 A CN 111428498A CN 202010256719 A CN202010256719 A CN 202010256719A CN 111428498 A CN111428498 A CN 111428498A
- Authority
- CN
- China
- Prior art keywords
- entry
- name dictionary
- weight
- filtering
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Abstract
本发明提供了一种专名词典的词条过滤方法及装置,该方法包括:对专名词典中的每个词条进行分词;根据词条所包括的分词数量以及每个分词的词频获得所述词条的权重;根据所述专名词典中词条的权重对所述专名词典的词条进行过滤。在本发明中,对专名词典中每个专名词进行分词并计算权重得分,常用词的频率越高,切分出的词的个数越多,其权重得分就越高,该词条作为专有名词的可能性就越小,从而根据权重得分进行专名词典的过滤,能有效地节省专名词典人工过滤成本,提高专名词典的质量。
Description
技术领域
本发明自然语言处理领域,具体而言,涉及一种专名词典的词条过滤方法及装置。
背景技术
在自然语言处理领域,专名词典的来源和应用都非常广泛。专名词典可以来源于专业网络中公开的数据集,人为收集整理的数据集,基于规则的算法抽取的数据集,甚至来源于人工从新闻数据标注出的专名等。专名词典可以广泛应用于自然语言处理中的专名识别,即结合专名词典进行文本匹配,可以匹配得到文本中的专名,并应用到后续的自然语言处理任务中,例如关系抽取,主题抽取等。
鉴于专名词典来源广泛,很难确保专名词典的质量。通常某个领域的专名词典会包含上百万的专名,其中难免有很多人为的错误,使专名词典中存在很多脏词需要过滤。若完全依赖人工过滤,则会消耗大量的人工成本,漏掉的可能性很大,而且效率极低。所以,为了能够更高效地过滤掉专名词典中的脏词,亟需一种可辅助人工进行专名词典的筛选的高效手段。
发明内容
本发明实施例提供了一种专名词典的词条过滤方法及装置,以至少解决相关技术中人工过滤专名词典中的脏词所产生的效率低的问题。
根据本发明的一个实施例,提供了一种专名词典的词条过滤方法,包括:对专名词典中的每个词条进行分词;根据词条所包括的分词数量以及每个分词的词频获得所述词条的权重;根据所述专名词典中词条的权重对所述专名词典的词条进行过滤。
可选地,对专名词典中的每个词条进行分词之前,还包括:通过统计语料获取常用词词表,其中所述常用词词表中包括常用词和该常用词的词频。
可选地,根据词条所包括的分词数量以及每个分词的词频获得所述词条的权重包括:根据如下公式获得所述词条的权重:
其中,W(word)为所述词条的权重,len为词条的长度,fi是第i个分词的词频,w为词频的权重,wLen为词条的长度权重。
可选地,根据所述专名词典中词条的权重对所述专名词典的词条进行过滤包括:将所述专名词典中词条的权重进行排序,将权重大于阈值的词条从所述专名词典中过滤掉。
根据本发明的另一个实施例,提供了一种专名词典的词条过滤装置,包括:分词模块,用于对专名词典中的每个词条进行分词;权重计算模块,用于根据词条所包括的分词数量以及每个分词的词频获得所述词条的权重;过滤模块,用于根据所述专名词典中词条的权重对所述专名词典的词条进行过滤。
可选地,所述装置还包括:统计模块,用于通过统计语料获取常用词词表,其中所述常用词词表中包括常用词和该常用词的词频。
可选地,所述权重计算模块根据如下公式计算所述词条的权重:
其中,W(word)为所述词条的权重,len为词条的长度,fi是第i个分词的词频,w为词频的权重,wLen为词条的长度权重。
可选地,所述过滤模块包括:排序单元,用于将所述专名词典中词条的权重进行排序;过滤单元,用于将权重大于阈值的词条从所述专名词典中过滤掉。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
在本发明的上述实施例中,对专名词典中每个专名词进行分词并计算权重得分,根据权重得分进行专名词典的过滤,因为,常用词的频率越高,切分出的词的个数越多,其权重得分就越高,该词条作为专有名词的可能性就越小,从而有效地节省了人工成本,提高专名词典的质量。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的专名词典的词条过滤方法的流程图;
图2是根据本发明可选实施例的专名词典的词条过滤方法的流程图;
图3是根据本发明实施例的专名词典的词条过滤装置的结构框图;
图4是根据本发明可选实施例的专名词典的词条过滤装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明中所涉及的术语解释如下:
专名词典:专有名词词典,如:人名词典、地名词典、机构名词典等。
CRF分词器:基于CRF模型实现的分词器,可以用于对文本进行词语切分。CRF分词器是一种常用的分词器。
脏词:专名词典中,不属于相应专名的词。
目前针对专名词典的过滤,通常可以针对特定专名,通过后缀或前缀规则进行过滤。对于地名专名词典,可以使用地名后缀,如省、市、区、县、路、街道、乡镇等。收集足够的地名后缀,则通过匹配词典中的词是否具有相应的后缀,从而实现部分专名的筛选。对于汉族人名词典,则可以收集足够的姓氏,如:张、陈、李、刘等,根据前缀是否是汉族人名姓氏来进行过滤。这样,可以判断出专名词典中哪些词是专名,从而过滤掉不是专名的词。
上述方法可以快速获取大量正确的专名,但过滤能力有限,有些以专名后缀结尾的非专名就无法过滤,例如地名专名词典中可能出现“修路”,“无人区”等词,虽然以地名后缀结尾,但并非地名,这样的情况就无法通过后缀过滤。另外,这种方法可能会过滤掉大量本身没有前缀或后缀的专有名词,这类的专名本身并不包含前缀或者后缀,例如外国音译人名,维吾尔族人名等。使用基于前缀或后缀规则的方法就会对此束手无策。
实施例1
为了解决上述技术问题,在本实施例中提供了一种专名词典的词条过滤方法,图1是根据本发明实施例的方法流程图,如图1所示,该流程包括如下步骤:
步骤S102,对专名词典中的每个词条进行分词;
步骤S104,根据词条所包括的分词数量以及每个分词的词频获得所述词条的权重;
步骤S106,根据所述专名词典中词条的权重对所述专名词典的词条进行过滤。
在本实施例的步骤S102之前,还可以包括:通过统计语料获取常用词词表,其中所述常用词词表中包括常用词和该常用词的词频。
在本实施例的步骤S104中,可根据如下公式获得所述词条的权重:
其中,W(word)为所述词条的权重,len为词条的长度,fi是第i个分词的词频,w为词频的权重,wLen为词条的长度权重。
在本实施例的步骤S106中,可将所述专名词典中词条的权重进行排序,将权重大于阈值的词条从所述专名词典中过滤掉。
在本实施例中,通过词条的权重来对专名词典进行过滤,可以有效地节省了人工成本,提高专名词典的质量。
实施例2
为了便于对本发明所提供的技术方案的理解,下面将结合具体场景的实施例进行详细描述。
鉴于当前专名词典过滤的方法处理能力有限,人工过滤耗时太长。在实施例中,针对专名词典,结合CRF分词和权重得分排序算法,提供了基于常用词切分排序的专名词典筛选模型。通过对专名词典中的每个词进行分词,匹配常用词并计算该专名的权重,并按照权重大小进行排序,最后人工辅助进行筛选,从而得到高质量的专名词典,以此应用到后续的自然语言处理任务中。
本实施例主要针对用字特殊,用词结合紧密的专名词(例如:外国音译人名词典、地名词典等),对专名词典进行筛选(过滤掉脏词,例如外国音译人名词典中可能包含脏词:杉原丈夫、小川是、市村道德等)得到高质量专名词典。可用于后续的自然语言处理任务中。
本实施例针对的专名词典有如下特点:
1.不会包含大量的常用词。不然的话可能是一个短语,并非专名。
2.常用的分词器通常会将专名作为单独的一个词。若分词器分出的词越多,该词是脏词的可能性就越大。
如图2所示,本实施例提供的专名词典的过滤方法主要包括如下步骤:
步骤S201:统计得到常用词词表。
公开的人民日报语料是人工分词的结果,即通过人工对整句话分词,并对每个词标注词性,词和词性以“/”分隔,每个词以空格分割。其中词性标记包含专名的标注,具体专名类别如表1所示。
表1
专名类型 | 标注 | 专名类型 | 标注 |
人名 | nr;nrf;nrj | 地名 | ns;nsf |
组织机构名 | nt | 其它专名 | nz |
语料切分结果举例如下:著名/a指挥家/n陈/nr佐湟/nr、/w陈/nr燮阳/nr、/w谭/nr利华/nr分别/d指挥/v演奏/v了/u一/m批/q中外/j名曲/n,/w京/j沪/j两地/n 200/m多/m位/q音乐家/n组成/v的/u大型/b乐队/n以/p饱满/a的/u激情/n和/c精湛/a的/u技艺/n为/p观众/n奉献/v了/u一/m台/q高/a水准/n的/u交响音乐会/n。/w
这样,去除其中的专名,剩余的词统计其词频。例如,可过滤出词频大于10的作为常用词词表。常用词词表中包含常用词和相应的词频。
步骤S202:对于要进行筛选的专名词典,用CRF分词器进行分词,得到分词结果。
步骤S203:根据步骤S201得到的常用词词表,对于步骤S202获取的分词结果,获取每个分词的词频。并根据如下公式计算该专有名词的权重。
其中,W(word)是当前专名的权重得分,len是步骤S202中得到的分词列表的长度,fi是第i个分词词频(通过匹配步骤S201中的常用词词表得到);w是词频权重,默认0.7;wLen是分词长度权重,默认0.3。
步骤S204:根据上一步得到的权重由高到低排序,得到所有专名的排序结果。
步骤S205:人工校验并进行过滤。从步骤S204得到的排序结果中,校验专名权重得分较高的专名。若并非专名,则从专名词典中过滤掉,得到质量更高的专名词典。
需说明的是,本实施例的上述步骤S201中的常用词词表,还可以通过对大规模新闻语料进行分词,通过实体识别,识别出其中的人名、地名和机构名、过滤掉分词结果中的这些专名,通过统计词频得到常用词词典。
另外,本实施例的上述步骤S203的专名权重得分计算,还可以考虑每个分词的字数,有如下权重得分计算公式:
其中,li是第i个分词的字数,wl是分词权重,可设为0.3。
下面将以外国音译人名词典为例,进一步对本实施例提供的方案进行详细说明。对于外国音译人名词典,在收集到的专名词典中会混有短语,及其它非此类型的脏词,例如,在下面的词典中:
丁加
丁勒
杰拉德·R·福特级航空母舰
郊野公园—雷
丁利
丁南
熊猫宝宝
博内苏
欧冠冠军
库里乌
田野考古
信用卡—龙卡
库采夫
库里亚
博内蒂
凤凰—西山—东郊
路易十四盛赞
夏日炎炎
莫绍尼
莫维勒
武林英雄
博内西
熊猫大侠
博内萨
海棠·豪华
莫绍费
莫绍齐
莫维克
莫维兹
萨蒂什·达万航天中心
……
在上述人名中,很多是真正的外国音译人名,如丁加、丁勒、博内苏、库里乌等,但也有很多的脏词,如杰拉德·R·福特级航空母舰、郊野公园—雷、欧洲冠军等。
采用本实施例所提供的方法从专名词典中过滤掉脏词,就是采用以上计算权重的方法,将类似杰拉德·R·福特级航空母舰、郊野公园—雷、欧洲冠军这样的脏词自动排到前面。
按照公式,有两个关键因素:
词条中常用词的频率总和(例如,在上述实施例的步骤S201中,不同的常用词有不同的频率,)
词条切分出的词的个数。如“郊野公园—雷”,切分出[郊野,公园,—,雷],切分出的词的个数即4个。
根据这两个关键因素,再辅以不同的权重,即可计算得到该词条的得分。
从上述的公式可以看出,常用词的频率越高,切分出的词的个数越多,其最终得分就越高,该词条作为专有名词的可能性就越小。
本实施例针对专名词典的筛选。可以有效地将疑似非专名的词,通过计算权重得分并排序,将其排到专名词典的前面,从而加快专名词典的筛选,有效地节省了人工成本,提高专名词典的质量。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例3
在本实施例中还提供了一种专名词典的词条过滤装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”或“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的专名词典的词条过滤装置的结构框图,如图3所示,该装置包括分词模块10、权重计算模块20和过滤模块30。
分词模块10,用于对专名词典中的每个词条进行分词。
权重计算模块20,用于根据词条所包括的分词数量以及每个分词的词频获得所述词条的权重。
过滤模块30,用于根据所述专名词典中词条的权重对所述专名词典的词条进行过滤。
图4是根据本发明实施例的专名词典的词条过滤装置结构框图,如图4所示,该装置除包括图3所示的所有模块外,该装置还包括统计模块40。统计模块40用于通过统计语料获取常用词词表,其中所述常用词词表中包括常用词和该常用词的词频。
在本实施例中,所述权重计算模块可根据如下公式计算所述词条的权重:
其中,W(word)为所述词条的权重,len为词条的长度,fi是第i个分词的词频,w为词频的权重,wLen为词条的长度权重。
在本实施例中所述过滤模块30还可以包括:排序单元31,用于将所述专名词典中词条的权重进行排序;过滤单元32,用于将权重大于阈值的词条从所述专名词典中过滤掉。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种专名词典的词条过滤方法,其特征在于,包括:
对专名词典中的每个词条进行分词;
根据词条所包括的分词数量以及每个分词的词频获得所述词条的权重;
根据所述专名词典中词条的权重对所述专名词典的词条进行过滤。
2.根据权利要求1所述的方法,其特征在于,对专名词典中的每个词条进行分词之前,还包括:
通过统计语料获取常用词词表,其中所述常用词词表中包括常用词和该常用词的词频。
4.根据权利要求3所述的方法,其特征在于,根据所述专名词典中词条的权重对所述专名词典的词条进行过滤包括:
将所述专名词典中词条的权重进行排序,将权重大于阈值的词条从所述专名词典中过滤掉。
5.一种专名词典的词条过滤装置,其特征在于,包括:
分词模块,用于对专名词典中的每个词条进行分词;
权重计算模块,用于根据词条所包括的分词数量以及每个分词的词频获得所述词条的权重;
过滤模块,用于根据所述专名词典中词条的权重对所述专名词典的词条进行过滤。
6.根据权利要求5所述的装置,其特征在于,还包括:
统计模块,用于通过统计语料获取常用词词表,其中所述常用词词表中包括常用词和该常用词的词频。
8.根据权利要求7所述的装置,其特征在于,过滤模块包括:
排序单元,用于将所述专名词典中词条的权重进行排序;
过滤单元,用于将权重大于阈值的词条从所述专名词典中过滤掉。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010256719.7A CN111428498A (zh) | 2020-04-02 | 2020-04-02 | 专名词典的词条过滤方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010256719.7A CN111428498A (zh) | 2020-04-02 | 2020-04-02 | 专名词典的词条过滤方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111428498A true CN111428498A (zh) | 2020-07-17 |
Family
ID=71553642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010256719.7A Withdrawn CN111428498A (zh) | 2020-04-02 | 2020-04-02 | 专名词典的词条过滤方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428498A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063497A (zh) * | 2010-12-31 | 2011-05-18 | 百度在线网络技术(北京)有限公司 | 一种开放式知识共享平台及其词条处理方法 |
US20140188456A1 (en) * | 2012-12-27 | 2014-07-03 | Abbyy Development Llc | Dictionary Markup System and Method |
CN107515877A (zh) * | 2016-06-16 | 2017-12-26 | 百度在线网络技术(北京)有限公司 | 敏感主题词集的生成方法和装置 |
CN110688836A (zh) * | 2019-09-30 | 2020-01-14 | 湖南大学 | 基于监督学习的领域词典自动化构建方法 |
-
2020
- 2020-04-02 CN CN202010256719.7A patent/CN111428498A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063497A (zh) * | 2010-12-31 | 2011-05-18 | 百度在线网络技术(北京)有限公司 | 一种开放式知识共享平台及其词条处理方法 |
US20140188456A1 (en) * | 2012-12-27 | 2014-07-03 | Abbyy Development Llc | Dictionary Markup System and Method |
CN107515877A (zh) * | 2016-06-16 | 2017-12-26 | 百度在线网络技术(北京)有限公司 | 敏感主题词集的生成方法和装置 |
CN110688836A (zh) * | 2019-09-30 | 2020-01-14 | 湖南大学 | 基于监督学习的领域词典自动化构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mubarak et al. | Using Twitter to collect a multi-dialectal corpus of Arabic | |
KR101536520B1 (ko) | 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버 | |
CN102033879B (zh) | 一种中文人名识别的方法和装置 | |
Wu et al. | Statistically-enhanced new word identification in a rule-based Chinese system | |
Almeman et al. | Automatic building of arabic multi dialect text corpora by bootstrapping dialect words | |
Gupta et al. | A survey of common stemming techniques and existing stemmers for indian languages | |
Corston-Oliver | Text compaction for display on very small screens | |
Brooke et al. | Automatic acquisition of lexical formality | |
Patel et al. | Hybrid stemmer for Gujarati | |
US7162413B1 (en) | Rule induction for summarizing documents in a classified document collection | |
Gupta et al. | Text summarization of Hindi documents using rule based approach | |
Ghwanmeh et al. | Enhanced algorithm for extracting the root of Arabic words | |
CN107526792A (zh) | 一种中文问句关键词快速提取方法 | |
Cotelo et al. | A modular approach for lexical normalization applied to Spanish tweets | |
Attia et al. | An automatically built named entity lexicon for Arabic | |
CN108108346A (zh) | 文档的主题特征词抽取方法及装置 | |
US20050091081A1 (en) | Apparatus and method for recognizing biological named entity from biological literature based on UMLS | |
CN112668321B (zh) | 关键词提取方法及装置、电子设备、存储介质 | |
Govilkar et al. | Extraction of root words using morphological analyzer for devanagari script | |
Tesfaye et al. | Designing a rule based stemmer for afaan oromo text | |
CN111428498A (zh) | 专名词典的词条过滤方法及装置 | |
CN112182448A (zh) | 页面信息处理方法、装置及设备 | |
Jenkins et al. | Conservative stemming for search and indexing | |
Crawley et al. | Desktop text mining for law enforcement | |
Volk | Choosing the right lemma when analysing German nouns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200717 |