CN110413723A - 一种数据驱动的语料库自动化构建方法 - Google Patents

一种数据驱动的语料库自动化构建方法 Download PDF

Info

Publication number
CN110413723A
CN110413723A CN201910488644.2A CN201910488644A CN110413723A CN 110413723 A CN110413723 A CN 110413723A CN 201910488644 A CN201910488644 A CN 201910488644A CN 110413723 A CN110413723 A CN 110413723A
Authority
CN
China
Prior art keywords
corpus
data
module
building
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910488644.2A
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Singularity Space-Time Digital Technology Co Ltd
Original Assignee
Fujian Singularity Space-Time Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Singularity Space-Time Digital Technology Co Ltd filed Critical Fujian Singularity Space-Time Digital Technology Co Ltd
Priority to CN201910488644.2A priority Critical patent/CN110413723A/zh
Publication of CN110413723A publication Critical patent/CN110413723A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据驱动的语料库自动化构建方法,包括以下步骤:获取语料,语料来自于资料;对获取的语料进行可行性分析;根据语料的分类模型,对语料进行分类存储,构建标准语料库和构建延伸语料库;用于对语料库进行访问,根据分类模型进行语料匹配;用于根据匹配模块获取的标准语料库和延伸语料库进行开发新的语料。本发明具有可以快速准确地构建语料库,具有自动化程度高,和构建的语料库具有分类明确,且内容量丰富不断扩充的优点。

Description

一种数据驱动的语料库自动化构建方法
技术领域
本发明涉及语料库构建领域,尤其涉及一种数据驱动的语料库自动化构建方法。
背景技术
关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous): 没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的 (Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。已经累积了大量各种类型的语料库,如:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible"bilingual corpus)、Shortmessages service(SMS)corpus(短消息服务(SMS)语料)等
语料库有三点特征
⒈语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;
⒉语料库是承载语言知识的基础资源,但并不等于语言知识;
⒊真实语料需要经过加工(分析和处理),才能成为有用的资源。
而语料库在构建过程中,存在着新的语料获取速度慢,导致语料库优化速度也很慢的问题。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种数据驱动的语料库自动化构建方法,具有可以快速准确地构建语料库,具有自动化程度高,和构建的语料库具有分类明确,且内容量丰富不断扩充的优点。
(二)技术方案
为解决上述问题,本发明提供了一种数据驱动的语料库自动化构建方法,包括以下步骤:
S1、获取语料,语料来自于资料;
S2、对获取的语料进行可行性分析;
S3、根据语料的分类模型,对语料进行分类存储,构建标准语料库和构建延伸语料库;
S4、用于对语料库进行访问,根据分类模型进行语料匹配;
S5、用于根据匹配模块获取的标准语料库和延伸语料库进行开发新的语料。
优选的,S1中,将获取到的语料为第一语料和第二语料;第一语料和第二语料是经过标注的语料。
优选的,S2中,可行性分析包括以下步骤:
S1、利用根据第一语料构建的概率分类模型对可选训练语句进行预测,得到第一预测结果;
S2、利用根据所述第一语料和第二语料构建的概率分类模型对可选语句进行预测,得到第二预测结果;
S3、比较第一预测结果和第二预测结果,若分类信息不一致,或者分类信息一致且第一预测结果中的预测概率小于第二预测结果中的预测概率,将可选语句和第二预测结果中的分类信息作为语料输出并存储。
优选的,S3和S4中,分类模型采用关联词搜索模式进行分类,各个关联词组构建成语料库,由关联词延伸的词组构建成延伸语料库。
根据上述技术方案,还提出了一种数据驱动的语料库自动化构建系统,包括数据获取模块、可行性分析模块、存储构建模块、匹配模块和开发模块;数据获取模块的输出端与可行性分析模块的输入端通讯连接,可行性分析模块的输出端与存储构建模块的输入端通讯连接,存储构建模块的输出端与匹配模块的输入端通讯连接,匹配模块的输出端与开发模块的输入端通讯连接。
优选的,数据获取模块用于获取语料。
优选的,可行性分析模块用于对获取的语料进行可行性分析。
优选的,存储构建模块对通过可行性分析模块的语料进行分类存储。
优选的,匹配模块根据分类模型进行匹配不同的语料。
优选的,开发模块用于根据匹配模块获取的标准语料库和延伸语料库进行开发新的语料。
本发明的上述技术方案具有如下有益的技术效果:对可语料进行两次预测并比较预测结果。若两次预测结果中分类信息不一致,意味着第二次预测是对第一次预测的结果进行了修正,应以第二次预测结果的分类信息为准。若两次预测结果中的分类信息一致且概率变大,意味着第二次预测是对第一次预测的结果进行了确认,此时两次预测结果中的分类信息是可信度较高的。通过这样的方式,可以快速准确地构建语料库,具有自动化程度高等优点。然后,再根据分类模型创建标准语料库和延伸语料库,并可以开发扩充语料库,因此,构建的语料库具有分类明确,且内容量丰富的优点。
附图说明
图1为本发明提出的一种数据驱动的语料库自动化构建方法的流程框图。
图2为本发明提出的一种数据驱动的语料库自动化构建方法中可行性分析的流程框图。
图3为本发明提出的一种数据驱动的语料库自动化构建方法中语料库自动化构建系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1-3所示,实施例1
本发明提供了一种数据驱动的语料库自动化构建方法,包括以下步骤:
S1、获取语料,语料来自于资料;
S2、对获取的语料进行可行性分析;
S3、根据语料的分类模型,对语料进行分类存储,构建标准语料库和构建延伸语料库;
S4、用于对语料库进行访问,根据分类模型进行语料匹配;
S5、用于根据匹配模块获取的标准语料库和延伸语料库进行开发新的语料。
在一个可选的实施例中,S1中,将获取到的语料为第一语料和第二语料;第一语料和第二语料是经过标注的语料。
在一个可选的实施例中,S2中,可行性分析包括以下步骤:
S1、利用根据第一语料构建的概率分类模型对可选训练语句进行预测,得到第一预测结果;
S2、利用根据所述第一语料和第二语料构建的概率分类模型对可选语句进行预测,得到第二预测结果;
S3、比较第一预测结果和第二预测结果,若分类信息不一致,或者分类信息一致且第一预测结果中的预测概率小于第二预测结果中的预测概率,将可选语句和第二预测结果中的分类信息作为语料输出并存储。
在一个可选的实施例中,S3和S4中,分类模型采用关联词搜索模式进行分类,各个关联词组构建成语料库,由关联词延伸的词组构建成延伸语料库。
本发明中,对可语料进行两次预测并比较预测结果。若两次预测结果中分类信息不一致,意味着第二次预测是对第一次预测的结果进行了修正,应以第二次预测结果的分类信息为准。若两次预测结果中的分类信息一致且概率变大,意味着第二次预测是对第一次预测的结果进行了确认,此时两次预测结果中的分类信息是可信度较高的。通过这样的方式,可以快速准确地构建语料库,具有自动化程度高等优点。然后,再根据分类模型创建标准语料库和延伸语料库,并可以开发扩充语料库,因此,构建的语料库具有分类明确,且内容量丰富的优点。
实施例2
根据上述实施例,本发明还提出了一种数据驱动的语料库自动化构建系统,包括数据获取模块、可行性分析模块、存储构建模块、匹配模块和开发模块;数据获取模块的输出端与可行性分析模块的输入端通讯连接,可行性分析模块的输出端与存储构建模块的输入端通讯连接,存储构建模块的输出端与匹配模块的输入端通讯连接,匹配模块的输出端与开发模块的输入端通讯连接。
在一个可选的实施例中,数据获取模块用于获取语料。
在一个可选的实施例中,可行性分析模块用于对获取的语料进行可行性分析。
在一个可选的实施例中,存储构建模块对通过可行性分析模块的语料进行分类存储。
在一个可选的实施例中,匹配模块根据分类模型进行匹配不同的语料。
在一个可选的实施例中,开发模块用于根据匹配模块获取的标准语料库和延伸语料库进行开发新的语料。
本发明通过获取模块、可行性分析模块和存储构建模块快速且自动化创建语料库;同时本发明通过匹配模块可以智能获取不同类别的语料,开发模块以开发扩充语料库。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种数据驱动的语料库自动化构建方法,其特征在于,包括以下步骤:
S1、获取语料,语料来自于资料;
S2、对获取的语料进行可行性分析;
S3、根据语料的分类模型,对语料进行分类存储,构建标准语料库和构建延伸语料库;
S4、用于对语料库进行访问,根据分类模型进行语料匹配;
S5、用于根据匹配模块获取的标准语料库和延伸语料库进行开发新的语料。
2.根据权利要求1所述的一种数据驱动的语料库自动化构建方法,其特征在于,S1中,将获取到的语料为第一语料和第二语料;第一语料和第二语料是经过标注的语料。
3.根据权利要求1所述的一种数据驱动的语料库自动化构建方法,其特征在于,S2中,可行性分析包括以下步骤:
S1、利用根据第一语料构建的概率分类模型对可选训练语句进行预测,得到第一预测结果;
S2、利用根据所述第一语料和第二语料构建的概率分类模型对可选语句进行预测,得到第二预测结果;
S3、比较第一预测结果和第二预测结果,若分类信息不一致,或者分类信息一致且第一预测结果中的预测概率小于第二预测结果中的预测概率,将可选语句和第二预测结果中的分类信息作为语料输出并存储。
4.根据权利要求1所述的一种数据驱动的语料库自动化构建方法,其特征在于,S3和S4中,分类模型采用关联词搜索模式进行分类,各个关联词组构建成语料库,由关联词延伸的词组构建成延伸语料库。
5.根据权利要求1-4任一项所述的建语料库自动化构建方法,还提出了一种数据驱动的语料库自动化构建系统,其特征在于,包括数据获取模块、可行性分析模块、存储构建模块、匹配模块和开发模块;数据获取模块的输出端与可行性分析模块的输入端通讯连接,可行性分析模块的输出端与存储构建模块的输入端通讯连接,存储构建模块的输出端与匹配模块的输入端通讯连接,匹配模块的输出端与开发模块的输入端通讯连接。
6.根据权利要求5所述的一种数据驱动的语料库自动化构建系统,其特征在于,数据获取模块用于获取语料。
7.根据权利要求5所述的一种数据驱动的语料库自动化构建系统,其特征在于,可行性分析模块用于对获取的语料进行可行性分析。
8.根据权利要求5所述的一种数据驱动的语料库自动化构建系统,其特征在于,存储构建模块对通过可行性分析模块的语料进行分类存储。
9.根据权利要求5所述的一种数据驱动的语料库自动化构建系统,其特征在于,匹配模块根据分类模型进行匹配不同的语料。
10.根据权利要求5所述的一种数据驱动的语料库自动化构建系统,其特征在于,开发模块用于根据匹配模块获取的标准语料库和延伸语料库进行开发新的语料。
CN201910488644.2A 2019-06-06 2019-06-06 一种数据驱动的语料库自动化构建方法 Pending CN110413723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910488644.2A CN110413723A (zh) 2019-06-06 2019-06-06 一种数据驱动的语料库自动化构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910488644.2A CN110413723A (zh) 2019-06-06 2019-06-06 一种数据驱动的语料库自动化构建方法

Publications (1)

Publication Number Publication Date
CN110413723A true CN110413723A (zh) 2019-11-05

Family

ID=68358253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910488644.2A Pending CN110413723A (zh) 2019-06-06 2019-06-06 一种数据驱动的语料库自动化构建方法

Country Status (1)

Country Link
CN (1) CN110413723A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942765A (zh) * 2019-11-11 2020-03-31 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224603A (zh) * 2015-09-01 2016-01-06 北京京东尚科信息技术有限公司 训练语料获取方法及装置
CN108491399A (zh) * 2018-04-02 2018-09-04 上海杓衡信息科技有限公司 基于语境迭代分析的汉译英机器翻译方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224603A (zh) * 2015-09-01 2016-01-06 北京京东尚科信息技术有限公司 训练语料获取方法及装置
CN108491399A (zh) * 2018-04-02 2018-09-04 上海杓衡信息科技有限公司 基于语境迭代分析的汉译英机器翻译方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942765A (zh) * 2019-11-11 2020-03-31 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质

Similar Documents

Publication Publication Date Title
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
CN110968700B (zh) 融合多类事理与实体知识的领域事件图谱构建方法和装置
CN111026671B (zh) 测试用例集构建方法和基于测试用例集的测试方法
US11256856B2 (en) Method, device, and system, for identifying data elements in data structures
CN104679850B (zh) 地址结构化方法及装置
CN101937430B (zh) 一种汉语句子中事件句式的抽取方法
CN108628828A (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN101079024B (zh) 一种专业词表动态生成系统和方法
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
CN104679867B (zh) 基于图的地址知识处理方法及装置
CN111401058B (zh) 一种基于命名实体识别工具的属性值抽取方法及装置
CN111930793A (zh) 目标行为挖掘与检索分析方法、系统、计算机设备及应用
CN107590119B (zh) 人物属性信息抽取方法及装置
CN103886092A (zh) 一种提供终端故障问题解决方案的方法及装置
CN103077158A (zh) 基于语料库的计算机辅助写作系统
CN109885641A (zh) 一种数据库中文全文检索的方法及系统
CN113010593B (zh) 非结构化文本的事件抽取方法、系统及装置
Mundotiya et al. Development of a Dataset and a Deep Learning Baseline Named Entity Recognizer for Three Low Resource Languages: Bhojpuri, Maithili, and Magahi
CN105389303A (zh) 一种异源语料自动融合方法
CN110413723A (zh) 一种数据驱动的语料库自动化构建方法
CN107862045A (zh) 一种基于多特征的跨语言剽窃检测方法
Gellerstam et al. The Bank of Swedish.
CN107958025A (zh) 弱监督实体关系抽取方法及其装置和电子设备
CN114328871A (zh) 一种基于nlp技术和内置知识库的智能客服问题解答方法
Suriyachay et al. Thai named entity tagged corpus annotation scheme and self verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191105