CN113836902B - 一种短语语料库的构建方法、装置、设备和存储介质 - Google Patents
一种短语语料库的构建方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113836902B CN113836902B CN202110984108.9A CN202110984108A CN113836902B CN 113836902 B CN113836902 B CN 113836902B CN 202110984108 A CN202110984108 A CN 202110984108A CN 113836902 B CN113836902 B CN 113836902B
- Authority
- CN
- China
- Prior art keywords
- phrase
- initial
- phrases
- corpus
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 25
- 238000012216 screening Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 abstract description 29
- 238000009472 formulation Methods 0.000 abstract description 6
- 239000000203 mixture Substances 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 235000017274 Diospyros sandwicensis Nutrition 0.000 description 4
- 241000282838 Lama Species 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种短语语料库的构建方法,包括:获取若干高质量短语和词性标注语料库;基于词性标注语料库,根据高质量短语生成短语模式对;其中,短语模式对包括高质量短语,以及与高质量短语对应的初始短语模式;基于词性标注语料库,根据初始短语模式,生成与初始短语模式对应的初始短语;根据初始短语,构建短语语料库。本发明还公开了一种短语语料库的构建装置、设备和存储介质,其能够根据获取的高质量短语和词性标注语料库,得到短语模式,进而根据短语模式和词性标注语料库,获得初始短语,以构建短语语料库,削弱了现有的规则制定所带来的主观性影响,适用于多种语言的短语语料库的快速构建。
Description
技术领域
本发明涉及自然语言技术领域,具体的说,涉及的是一种短语语料库的构建方法、装置、设备和存储介质。
背景技术
随着大数据时代的发展,从海量、动态增长的语料库中自动提取高质量的短语受到了越来越多的关注,目前的短语语料库的构建大多是基于统计特征或基于数据驱动的,需要语言专家来设置规则或标记短语。基于规则的方法主要是通过手工编制包含繁杂的语法或语义信息的词典和规则系统,不仅费时费力,带有很强的主观性,而且难以总结不同语言的词性规则和规则的一致性,规则覆盖面窄,使其无法应用于不同语种的短语语料库构建。
发明内容
本发明实施例的目的是提供一种短语语料库的构建方法、装置、设备和存储介质,其能够根据获取的高质量短语和词性标注语料库,得到短语模式,进而根据短语模式和词性标注语料库,获得初始短语,以构建短语语料库,削弱了现有的规则制定所带来的主观性影响,适用于多种语言的短语语料库的快速构建。
为实现上述目的,本发明实施例提供了一种短语语料库的构建方法,包括:
获取若干高质量短语和词性标注语料库;
基于所述词性标注语料库,根据所述高质量短语生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;
基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语;
根据所述初始短语,构建短语语料库。
作为上述方案的改进,
所述基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语,具体包括:
统计与初始短语模式对应的高质量短语的数量;
当所述与初始短语模式对应的高质量短语的数量大于预设数量阈值时,将该初始短语模式作为候选短语模式;
基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语。
作为上述方案的改进,所述基于所述词性标注语料库,根据所述高质量短语生成短语模式对,具体包括:
根据所述高质量短语,遍历所述词性标注语料库,得到与所述高质量短语对应的初始短语模式;
根据所述高质量短语和所述与所述高质量短语对应的初始短语模式,生成短语模式对。
作为上述方案的改进,所述基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语,具体包括:
根据所述候选短语模式的第一人工标注信息,筛选出若干候选短语模式作为目标短语模式;
基于所述词性标注语料库,根据所述目标短语模式,生成与所述目标短语模式对应的初始短语。
作为上述方案的改进,所述根据所述初始短语,构建短语语料库,具体包括:
根据与所述初始短语对应的初始短语模式,对所述初始短语进行分类,得到若干初始短语组;
从每一所述初始短语组中随机选取若干初始短语作为候选短语;
根据所述候选短语的第二人工标注信息,筛选出若干候选短语作为目标短语;
根据所述目标短语,构建短语语料库。
作为上述方案的改进,所述高质量短语,通过以下方式获取:
爬取维基百科中的短语作为高质量短语。
为实现上述目的,本发明实施例还提供了一种短语语料库的构建装置,包括:
数据获取模块,用于获取若干高质量短语和词性标注语料库;
模式对生成模块,用于基于所述词性标注语料库,根据所述高质量短语生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;
短语生成模块,用于基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语;
语料库构建模块,用于根据所述初始短语,构建短语语料库。
作为上述方案的改进,所述短语生成模块,具体包括:
频数统计单元,用于统计与初始短语模式对应的高质量短语的数量;
模式选择单元,用于当所述与初始短语模式对应的高质量短语的数量大于预设数量阈值时,将该初始短语模式作为候选短语模式;
短语生成单元,用于基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语。
作为上述方案的改进,所述模式对生成模块,具体包括:
模式获取单元,用于根据所述高质量短语,遍历所述词性标注语料库,得到与所述高质量短语对应的初始短语模式;
模式对生成单元,用于根据所述高质量短语和所述与所述高质量短语对应的初始短语模式,生成短语模式对。
为实现上述目的,本发明实施例还提供了一种短语语料库的构建设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的短语语料库的构建方法。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的短语语料库的构建方法。
与现有技术相比,本发明实施例公开的一种短语语料库的构建方法、装置、设备和存储介质,通过获取若干高质量短语和词性标注语料库,以生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;基于所述词性标注语料库,通过根据所述初始短语模式,来生成与所述初始短语模式对应的初始短语,以构建短语语料库。由此可见,本发明实施例能够根据获取的高质量短语和词性标注语料库,得到短语模式,进而根据短语模式和词性标注语料库,获得初始短语,以构建短语语料库,削弱了现有的规则制定所带来的主观性影响,适用于多种语言的短语语料库的快速构建。
附图说明
图1是本发明一实施例提供的一种短语语料库的构建方法的流程图;
图2是本发明一实施例提供的另一种短语语料库的构建方法的流程图;
图3是本发明一实施例提供的一种短语语料库的构建装置的结构框图;
图4是本发明一实施例提供的一种短语生成模块的结构框图;
图5是本发明一实施例提供的一种模式对生成模块的结构框图;
图6是本发明一实施例提供的一种短语语料库的构建设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明一实施例提供的一种短语语料库的构建方法的流程示意图。
所述短语语料库的构建方法可以通过用户端执行,所述用户端可以为电脑、手机、平板等用户终端设备;其中,所述用户端上可以装载有各种应用程序,作为举例,所述用户端可以包括显示屏和处理器,该显示屏用于呈现用户界面并与用户进行交互;该处理器用于运行短语语料库的构建程序、生成用户界面以及控制用户界面在显示屏上的显示。
所述短语语料库的构建方法也可以由服务器执行,所述服务器可以IA架构服务器、RISC架构服务器等不同类型的服务器;其中,所述服务器端具有高速的CPU运算能力、长时间的可靠运行、强大的I/O外部数据吞吐能力以及更好的扩展性。
具体地,所述方法包括步骤S11~S14:
S11、获取若干高质量短语和词性标注语料库;
S12、基于所述词性标注语料库,根据所述高质量短语生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;
S13、基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语;
S14、根据所述初始短语,构建短语语料库。
值得说明的是,本发明实施例公开的短语语料库的构建方法适用于多个语种,在此不作限定。
本发明实施例以印尼语的短语语料库作为例子进行说明:
在步骤S11中,作为举例地,高质量短语为印尼语的高质量短语,词性标注语料库为印尼语的词性标注语料库,词性标注语料库包括单词以及与单词对应的词性标签,本发明实施例采用的印尼语的词性标注语料库包括355000个单词(token)和29个词性标签,词性标签可参见表一:
可以理解的,词性标注语料库可以预先存储在本地,当需要时直接调用,也可以存储在云端,当需要时通过无线网络或者有线网络等从云端下载,在此不作限定。
在步骤S12中,作为举例地,根据印尼语的高质量短语从印尼语的词性标注语料库中找出相应的词性标签以形成初始短语模式,根据高质量短语和初始短语模式对生成短语模式对,示例性的,生成的短语模式对可参见表二:
初始短语模式 | 高质量短语 |
NN NN | adanya keterlibatkan,keterlibatkan kepolisisian,pintu bekang |
CD NN | suatu took,dua tahun,empat orang |
RB JJ | sudah lama,sudah penuh,paling benar |
从表二可看出,高质量短语“adanya keterlibatkan′、“keterlibatkankepolisisian和“pintu bekang”对应的初始短语模式都为“NN NN”,高质量短语“suatutook”、“dua tahun和“empat orang”对应的初始短语模式都为“CD NN”,高质量短语“sudahlama”、“sudah penuh和“paling benar”对应的初始短语模式都为“RB JJ”。
在步骤S13中,作为举例地,根据初始短语模式,反向搜索词性标注语料库,生成与初始短语模式对应的初始短语。示例性的,根据初始短语模式“NN NN”,反向搜索词性标注语料库,生成与初始短语模式对应的初始短语“tuna netra”,根据初始短语模式“DT NN”,反向搜索词性标注语料库,生成与初始短语模式对应的初始短语“Ibunya hadir根据初始短语模式“CD NNP”,反向搜索词性标注语料库,生成与初始短语模式对应的初始短语“SangAyah”。
在步骤S14中,作为举例地,根据步骤S13生成的初始短语“tuna netra”、“Ibunyahadir和“Sang Ayah”,构建印尼语的短语语料库。
值得说明的是,以上提及的具体的初始短语模式、具体的高质量短语和具体的初始短语仅是为了方便理解而展示的部分示例。
在本实施例中,通过获取若干高质量短语和词性标注语料库,以生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;基于所述词性标注语料库,通过根据所述初始短语模式,来生成与所述初始短语模式对应的初始短语,以构建短语语料库。本发明实施例能够根据获取的高质量短语和词性标注语料库,得到短语模式,进而根据短语模式和词性标注语料库,获得初始短语,以构建短语语料库,削弱了现有的规则制定所带来的主观性影响,适用于多种语言的短语语料库的快速构建。
在一种实施方式下,步骤S13中的所述基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语,具体包括步骤S131~S133:
S131、统计与初始短语模式对应的高质量短语的数量;
S132、当所述与初始短语模式对应的高质量短语的数量大于预设数量阈值时,将该初始短语模式作为候选短语模式;
S133、基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语。
具体地,为了提高短语模式的质量以使得构建的短语语料库更优,对初始短语模式进行筛选。在生成短语模式对之后,根据初始短语模式对所有短语模式对进行分组,得到若干与每一初始短语模式对应的组,计算每一组中的短语模式对的数量,筛选出数量大于预设数量阈值的组,将筛选得到的组对应的初始短语模式作为候选短语模式,根据候选短语模式,搜索词性标注语料库,生成与候选短语模式对应的初始短语。可以理解的,预设数量阈值与短语模式对的数量(高质量短语的数量)有关,一般来说,短语模式对数量越大,预设数量阈值也会相对较大,预设数量阈值可根据实际情况进行设定。
在一种实施方式下,步骤S12中的所述基于所述词性标注语料库,根据所述高质量短语生成短语模式对,具体包括步骤S121~S122:
S121、根据所述高质量短语,遍历所述词性标注语料库,得到与所述高质量短语对应的初始短语模式;
S122、根据所述高质量短语和所述与所述高质量短语对应的初始短语模式,生成短语模式对。
示例性的,设定高质量短语为印尼语,包括短语“adanya keterlibatkan词性标注语料库为印尼语的语料库;根据“adanya keterlibatkan遍历词性标注语料库,得到“adanya keterlibatkan中的单词“adanya”对应的词性标签为“NN”,“adanyaketerlibatkan中的单词“keterlibatkan”对应的词性标签为“NN”,将高质量短语“adanyaketerlibatkan中每一单词的词性标签进行组合,得到初始短语模式“NN NN”,根据高质量短语“adanya keterlibatkan和与高质量短语“adanya keterlibatkan对应的初始短语模式“NN NN”生成短语模式对。
值得说明的是,高质量短语和词性标注语料库的语种并不局限于印尼语,可根据实际需求进行语种选择。
在一种实施方式下,步骤S133中的基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语,具体包括步骤S1331~S1332:
根据所述候选短语模式的第一人工标注信息,筛选出若干候选短语模式作为目标短语模式;
基于所述词性标注语料库,根据所述目标短语模式,生成与所述目标短语模式对应的初始短语。
具体地,在得到候选短语模式之后,对候选短语模式作进一步地优化,第一人工标注信息为印尼语专家对每一候选短语模式进行人工标注的信息,第一人工标注信息包括“不是短语模式”和“可能是短语模式”,筛选出第一人工标注信息为“可能是短语模式”的候选短语模式作为目标短语模式,进而根据目标短语模式,搜索词性标注语料库,生成与目标短语模式对应的初始短语。
示例性的,假设筛选得到的目标短语模式包括“DT NN”,根据“DT NN”中的第一部分“DT”,搜索词性标注语料库,得到单词“Ibunya”,根据“DT NN”中的第二部分“NN”,搜索词性标注语料库,得到单词“hadir”,根据得到的单词“Ibunya”和“hadir”,生成初始短语“Ibunya hadir”。
在一种实施例中,步骤14中的所述根据所述初始短语,构建短语语料库,具体包括步骤S141~S144:
S141、根据与所述初始短语对应的初始短语模式,对所述初始短语进行分类,得到若干初始短语组;
S142、从每一所述初始短语组中随机选取若干初始短语作为候选短语;
S143、根据所述候选短语的第二人工标注信息,筛选出若干候选短语作为目标短语;
S144、根据所述目标短语,构建短语语料库。
具体地,为了保证构建短语语料库的短语质量,对初始短语进行筛选。根据与初始短语对应的初始短语模式,将初始短语进行分类,得到若干初始短语组,组成候选短语语料库;其中,每一初始短语组组内的所有初始短语对应的初始短语模式相同;对于每一种初始短语模式,随机选取若干初始短语作为候选短语;第二人工标注信息为印尼语专家对每一候选短语进行人工标注的信息,第二人工标注信息包括“不是短语”和“是短语”,筛选出第二人工标注信息为“是短语”的候选短语作为目标短语,进而根据目标短语,构建短语语料库。
在一种实施方式中,所述高质量短语,通过以下方式获取:
爬取维基百科中的短语作为高质量短语。
具体地,维基百科是一个多语言、内容较完整全面、较精准且较中立的百科全书,因此采用从维基百科爬取短语并将获得的短语作为高质量短语。
值得说明的是,高质量短语的获取来源并不局限于维基百科,可根据实际需求进行高质量短语获取来源的选择。
具体的短语语料库的构建方法还可参考图2。
综上所述,与现有技术相比,本发明实施例公开的短语语料库的构建方法,能够根据获取的高质量短语和词性标注语料库,得到短语模式,进而根据短语模式和词性标注语料库,获得初始短语,以构建短语语料库,削弱了现有的规则制定所带来的主观性影响,适用于多种语言的短语语料库的快速构建。
参见图3,是本发明一实施例提供的一种短语语料库的构建装置的结构示意图。短语语料库的构建装置10,包括:
数据获取模块11,用于获取若干高质量短语和词性标注语料库;
模式对生成模块12,用于基于所述词性标注语料库,根据所述高质量短语生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;
短语生成模块13,用于基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语;
语料库构建模块14,用于根据所述初始短语,构建短语语料库。
本发明实施例以印尼语的短语语料库作为例子进行说明:
在数据获取模块11中,作为举例地,高质量短语为印尼语的高质量短语,词性标注语料库为印尼语的词性标注语料库,词性标注语料库包括单词以及与单词对应的词性标签,本发明实施例采用的印尼语的词性标注语料库包括355000个单词(token)和29个词性标签,词性标签可参见表一:
可以理解的,词性标注语料库可以预先存储在本地,当需要时直接调用,也可以存储在云端,当需要时通过无线网络或者有线网络等从云端下载,在此不作限定。
模式对生成模块12,作为举例地,用于根据印尼语的高质量短语从印尼语的词性标注语料库中找出相应的词性标签以形成初始短语模式,根据高质量短语和初始短语模式对生成短语模式对,示例性的,生成的短语模式对可参见表二:
初始短语模式 | 高质量短语 |
NN NN | adanya keterlibatkan,keterlibatkan kepolisisian,pintu bekang |
CD NN | suatu took,dua tahun,empat orang |
RB JJ | sudah lama,sudah penuh,paling benar |
从表二可看出,高质量短语“adanya keterlibatkan“keterlibatkankepolisisian和“pintu bekang”对应的初始短语模式都为“NN NN”,高质量短语“suatutook”、“dua tahun和“empat orang”对应的初始短语模式都为“CD NN”,高质量短语“sudahlama”、“sudah penuh和“paling benar”对应的初始短语模式都为“RB JJ”。
短语生成模块13,作为举例地,用于根据初始短语模式,反向搜索词性标注语料库,生成与初始短语模式对应的初始短语。示例性的,根据初始短语模式“NN NN”,反向搜索词性标注语料库,生成与初始短语模式对应的初始短语“tuna netra”,根据初始短语模式“DT NN”,反向搜索词性标注语料库,生成与初始短语模式对应的初始短语“Ibunyahadir”,根据初始短语模式“CD NNP”,反向搜索词性标注语料库,生成与初始短语模式对应的初始短语“Sang Ayah”。
语料库构建模块14,作为举例地,根据短语生成模块13生成的初始短语“tunanetra”、“Ibunya hadir”和“Sang Ayah”,构建印尼语的短语语料库。
值得说明的是,以上提及的具体的初始短语模式、具体的高质量短语和具体的初始短语仅是为了方便理解而展示的部分示例。
在本实施例中,短语语料库的构建装置10通过获取若干高质量短语和词性标注语料库,以生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;基于所述词性标注语料库,通过根据所述初始短语模式,来生成与所述初始短语模式对应的初始短语,以构建短语语料库。本发明实施例能够根据获取的高质量短语和词性标注语料库,得到短语模式,进而根据短语模式和词性标注语料库,获得初始短语,以构建短语语料库,削弱了现有的规则制定所带来的主观性影响,适用于多种语言的短语语料库的快速构建。
参见图4,在一种实施方式下,所述短语生成模块13,具体包括:
频数统计单元131,用于统计与初始短语模式对应的高质量短语的数量;
模式选择单元132,用于当所述与初始短语模式对应的高质量短语的数量大于预设数量阈值时,将该初始短语模式作为候选短语模式;
短语生成单元133,用于基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语。
具体地,为了提高短语模式的质量以使得构建的短语语料库更优,对初始短语模式进行筛选。在生成短语模式对之后,根据初始短语模式对所有短语模式对进行分组,得到若干与每一初始短语模式对应的组,计算每一组中的短语模式对的数量,筛选出数量大于预设数量阈值的组,将筛选得到的组对应的初始短语模式作为候选短语模式,根据候选短语模式,搜索词性标注语料库,生成与候选短语模式对应的初始短语。可以理解的,预设数量阈值与短语模式对的数量(高质量短语的数量)有关,一般来说,短语模式对数量越大,预设数量阈值也会相对较大,预设数量阈值可根据实际情况进行设定。
参见图5,在一种实施方式下,所述模式对生成模块12,具体包括:
模式获取单元121,用于根据所述高质量短语,遍历所述词性标注语料库,得到与所述高质量短语对应的初始短语模式;
模式对生成单元122,用于根据所述高质量短语和所述与所述高质量短语对应的初始短语模式,生成短语模式对。
示例性的,设定高质量短语为印尼语,包括短语“adanya keterlibatkan词性标注语料库为印尼语的语料库;根据“adanya keterlibatkan遍历词性标注语料库,得到“adanya keterlibatkan中的单词“adanya”对应的词性标签为“NN”,“adanyaketerlibatkan中的单词“keterlibatkan”对应的词性标签为“NN”,将高质量短语“adanyaketerlibatkan中每一单词的词性标签进行组合,得到初始短语模式“NN NN”,根据高质量短语“adanya keterlibatkan和与高质量短语“adanya keterlibatkan对应的初始短语模式“NN NN”生成短语模式对。
值得说明的是,高质量短语和词性标注语料库的语种并不局限于印尼语,可根据实际需求进行语种选择。
值得说明的是,具体的所述短语语料库的构建装置10的工作过程可参考上述实施例中所述短语语料库的构建方法的工作过程,在此不再赘述。
参见图6,是本发明实施例提供的一种短语语料库的构建设备20,包括处理器21、存储器22以及存储在所述存储器22中且被配置为由所述处理器21执行的计算机程序,所述处理器21执行所述计算机程序时实现如上述短语语料库的构建方法实施例中的步骤,例如图1中所述的步骤S11~S14;或者,所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块的功能,例如数据获取模块11。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器22中,并由所述处理器21执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述短语语料库的构建设备20中的执行过程。例如,所述计算机程序可以被分割成数据获取模块11、模式对生成模块12、短语生成模块13和语料库构建模块14,各模块具体功能如下:
数据获取模块11,用于获取若干高质量短语和词性标注语料库;
模式对生成模块12,用于基于所述词性标注语料库,根据所述高质量短语生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;
短语生成模块13,用于基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语;
语料库构建模块14,用于根据所述初始短语,构建短语语料库。
各个模块具体的工作过程可参考上述实施例所述的短语语料库的构建装置10的工作过程,在此不再赘述。
所述短语语料库的构建设备20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述短语语料库的构建设备20可包括,但不仅限于,处理器21、存储器22。本领域技术人员可以理解,所述示意图仅仅是短语语料库的构建设备的示例,并不构成对短语语料库的构建设备20的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述短语语料库的构建设备20还可以包括输入输出设备、网络接入设备、总线等。
所述处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器21是所述短语语料库的构建设备20的控制中心,利用各种接口和线路连接整个短语语料库的构建设备20的各个部分。
所述存储器22可用于存储所述计算机程序和/或模块,所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块,以及调用存储在存储器22内的数据,实现所述短语语料库的构建设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据(比如高质量短语、短语语料库等)等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述短语语料库的构建设备20集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (5)
1.一种短语语料库的构建方法,其特征在于,包括:
获取若干高质量短语和词性标注语料库;
基于所述词性标注语料库,根据所述高质量短语生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;
基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语;
根据所述初始短语,构建短语语料库;
所述基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语,具体包括:
统计与初始短语模式对应的高质量短语的数量;
当所述与初始短语模式对应的高质量短语的数量大于预设数量阈值时,将该初始短语模式作为候选短语模式;
基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语;
所述基于所述词性标注语料库,根据所述高质量短语生成短语模式对,具体包括:
根据所述高质量短语,遍历所述词性标注语料库,得到与所述高质量短语对应的初始短语模式;
根据所述高质量短语和所述与所述高质量短语对应的初始短语模式,生成短语模式对:
所述基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语,具体包括:
根据所述候选短语模式的第一人工标注信息,筛选出若干候选短语模式作为目标短语模式;
基于所述词性标注语料库,根据所述目标短语模式,生成与所述目标短语模式对应的初始短语;
所述根据所述初始短语,构建短语语料库,具体包括:
根据与所述初始短语对应的初始短语模式,对所述初始短语进行分类,得到若干初始短语组;
从每一所述初始短语组中随机选取若干初始短语作为候选短语;
根据所述候选短语的第二人工标注信息,筛选出若干候选短语作为目标短语;
根据所述目标短语,构建短语语料库。
2.如权利要求1所述的短语语料库的构建方法,其特征在于,所述高质量短语,通过以下方式获取:
爬取维基百科中的短语作为高质量短语。
3.一种短语语料库的构建装置,其特征在于,包括:
数据获取模块,用于获取若干高质量短语和词性标注语料库;
模式对生成模块,用于基于所述词性标注语料库,根据所述高质量短语生成短语模式对;其中,短语模式对包括所述高质量短语,以及与所述高质量短语对应的初始短语模式;
短语生成模块,用于基于所述词性标注语料库,根据所述初始短语模式,生成与所述初始短语模式对应的初始短语;
语料库构建模块,用于根据所述初始短语,构建短语语料库,具体包括:
根据与所述初始短语对应的初始短语模式,对所述初始短语进行分类,得到若干初始短语组;
从每一所述初始短语组中随机选取若干初始短语作为候选短语;
根据所述候选短语的第二人工标注信息,筛选出若干候选短语作为目标短语;
根据所述目标短语,构建短语语料库;
所述短语生成模块,具体包括:
频数统计单元,用于统计与初始短语模式对应的高质量短语的数量;
模式选择单元,用于当所述与初始短语模式对应的高质量短语的数量大于预设数量阈值时,将该初始短语模式作为候选短语模式;
短语生成单元,用于基于所述词性标注语料库,根据所述候选短语模式,生成与所述候选短语模式对应的初始短语,具体包括:
根据所述候选短语模式的第一人工标注信息,筛选出若干候选短语模式作为目标短语模式;
基于所述词性标注语料库,根据所述目标短语模式,生成与所述目标短语模式对应的初始短语;
所述模式对生成模块,具体包括:
模式获取单元,用于根据所述高质量短语,遍历所述词性标注语料库,得到与所述高质量短语对应的初始短语模式;
模式对生成单元,用于根据所述高质量短语和所述与所述高质量短语对应的初始短语模式,生成短语模式对。
4.一种短语语料库的构建设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至2中任意一项所述的短语语料库的构建方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至2中任意一项所述的短语语料库的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110984108.9A CN113836902B (zh) | 2021-08-25 | 2021-08-25 | 一种短语语料库的构建方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110984108.9A CN113836902B (zh) | 2021-08-25 | 2021-08-25 | 一种短语语料库的构建方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836902A CN113836902A (zh) | 2021-12-24 |
CN113836902B true CN113836902B (zh) | 2024-04-26 |
Family
ID=78961271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110984108.9A Active CN113836902B (zh) | 2021-08-25 | 2021-08-25 | 一种短语语料库的构建方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836902B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8190628B1 (en) * | 2007-11-30 | 2012-05-29 | Google Inc. | Phrase generation |
US9298700B1 (en) * | 2009-07-28 | 2016-03-29 | Amazon Technologies, Inc. | Determining similar phrases |
CN108319583A (zh) * | 2017-01-06 | 2018-07-24 | 光讯网络科技有限公司 | 从中文语料库提取知识的方法与系统 |
CN108319586A (zh) * | 2018-01-31 | 2018-07-24 | 天闻数媒科技(北京)有限公司 | 一种信息提取规则的生成和语义解析方法及装置 |
CN109977391A (zh) * | 2017-12-28 | 2019-07-05 | 中国移动通信集团公司 | 一种文本数据的信息抽取方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11507743B2 (en) * | 2017-02-28 | 2022-11-22 | Nice Ltd. | System and method for automatic key phrase extraction rule generation |
-
2021
- 2021-08-25 CN CN202110984108.9A patent/CN113836902B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8190628B1 (en) * | 2007-11-30 | 2012-05-29 | Google Inc. | Phrase generation |
US9298700B1 (en) * | 2009-07-28 | 2016-03-29 | Amazon Technologies, Inc. | Determining similar phrases |
CN108319583A (zh) * | 2017-01-06 | 2018-07-24 | 光讯网络科技有限公司 | 从中文语料库提取知识的方法与系统 |
CN109977391A (zh) * | 2017-12-28 | 2019-07-05 | 中国移动通信集团公司 | 一种文本数据的信息抽取方法及装置 |
CN108319586A (zh) * | 2018-01-31 | 2018-07-24 | 天闻数媒科技(北京)有限公司 | 一种信息提取规则的生成和语义解析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113836902A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881307B (zh) | 一种演示文稿生成方法、装置、计算机设备及存储介质 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN109325146B (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
CN111309916B (zh) | 摘要抽取方法和装置、存储介质和电子装置 | |
CN109657056B (zh) | 目标样本获取方法、装置、存储介质及电子设备 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN112783825A (zh) | 数据归档方法、装置、计算机装置及存储介质 | |
CN113590811A (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
CN113836902B (zh) | 一种短语语料库的构建方法、装置、设备和存储介质 | |
CN112287077A (zh) | 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备 | |
US9946765B2 (en) | Building a domain knowledge and term identity using crowd sourcing | |
CN107908792B (zh) | 信息推送方法和装置 | |
CN107656627B (zh) | 信息输入方法和装置 | |
Khritankov et al. | Discovering text reuse in large collections of documents: A study of theses in history sciences | |
CN113486169B (zh) | 基于bert模型的同义语句生成方法、装置、设备及存储介质 | |
CN114896141A (zh) | 测试用例的去重方法、装置、设备及计算机可读存储介质 | |
CN111492364A (zh) | 数据标注方法、装置及存储介质 | |
CN113656738A (zh) | 网站分类方法、装置、电子设备及可读存储介质 | |
CN110472140B (zh) | 对象词推荐方法、装置及电子设备 | |
CN114490929A (zh) | 一种招投标信息采集方法、装置、存储介质及终端设备 | |
JP6868062B2 (ja) | 情報を更新するための方法と装置 | |
CN109815312B (zh) | 一种文档查询的方法、装置、计算设备及计算机存储介质 | |
CN110688472A (zh) | 一种自动筛选问题答案的方法、终端设备及存储介质 | |
CN114238572B (zh) | 基于人工智能的多数据库数据提取方法、装置及电子设备 | |
CN109284279B (zh) | 一种审讯问题选择方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240402 Address after: No.2, Baiyun Avenue North, Guangzhou, Guangdong 510000 Applicant after: GUANGDONG University OF FOREIGN STUDIES Country or region after: China Applicant after: GUANGZHOU College OF COMMERCE Address before: No.2, Baiyun Avenue North, Guangzhou, Guangdong 510420 Applicant before: GUANGDONG University OF FOREIGN STUDIES Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |