CN110852109A - 语料生成方法、语料生成装置、和存储介质 - Google Patents
语料生成方法、语料生成装置、和存储介质 Download PDFInfo
- Publication number
- CN110852109A CN110852109A CN201911096541.8A CN201911096541A CN110852109A CN 110852109 A CN110852109 A CN 110852109A CN 201911096541 A CN201911096541 A CN 201911096541A CN 110852109 A CN110852109 A CN 110852109A
- Authority
- CN
- China
- Prior art keywords
- corpus
- corpus data
- data
- entity
- templates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000002372 labelling Methods 0.000 claims description 43
- 238000013507 mapping Methods 0.000 claims description 37
- 238000012216 screening Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 230000006854 communication Effects 0.000 description 8
- 241001075517 Abelmoschus Species 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- BNRNXUUZRGQAQC-UHFFFAOYSA-N Sildenafil Natural products CCCC1=NN(C)C(C(N2)=O)=C1N=C2C(C(=CC=1)OCC)=CC=1S(=O)(=O)N1CCN(C)CC1 BNRNXUUZRGQAQC-UHFFFAOYSA-N 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- DEIYFTQMQPDXOT-UHFFFAOYSA-N sildenafil citrate Chemical compound OC(=O)CC(O)(C(O)=O)CC(O)=O.CCCC1=NN(C)C(C(N2)=O)=C1N=C2C(C(=CC=1)OCC)=CC=1S(=O)(=O)N1CCN(C)CC1 DEIYFTQMQPDXOT-UHFFFAOYSA-N 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 229940094720 viagra Drugs 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了语料生成方法、语料生成装置、和存储介质,该语料生成装置涉及人工智能领域中自然语言处理,本发明可以获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体,对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本,对所述语料模板进行分组,得到多个子语料模板,对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据,将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据,基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。本发明实施例可以缩短语料数据生成时间,且使得生成的语料数据更加全面。
Description
技术领域
本发明涉及医疗设备技术领域,具体涉及一种语料生成方法、语料生成装置、和存储介质。
背景技术
随着互联网的发展,通过网络检索,得到答案的需要也越来越多,为了更好的回答检索词,通常会通过信息检索与问答系统来处理检索词。
在信息检索与问答系统服务过程中,语料数据生成是非常重要的,相关的信息检索与问答系统中,语料数据的生成一般采用两种途径,一种是通过人力的搜索进行添加补全。人力补全之后还需要开发进行审核才能上线。另一种是通过数据挖掘,通常是去挖掘日志,拿领域的关键字去召回用户的搜索语句,然后拿模型来进行分类,分类后需要人工进行标注,看是否属于本领域,属于的用户的搜索语句再拿去输出答案。
上述两种方式的在生成的语料数据时周期较长,且生成的语料数据不够全面。
发明内容
本发明实施例提供一种语料生成方法、语料生成装置、和存储介质,可以缩短语料数据生成时间,且使得生成的语料数据更加全面。
本发明实施例提供一种语料生成方法,包括:
获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体;
对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本;
对所述语料模板进行分组,得到多个子语料模板;
对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据;
将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据;
基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。
相应的,本发明实施例还提供一种语料生成装置,包括:
标注单元,用于获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体;
筛选单元,用于对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本;
分组单元,用于对所述语料模板进行分组,得到多个子语料模板;
交叉组合单元,用于对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据;
组合单元,用于将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据;
生成单元,用于基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。
可选的,在本发明的一些实施例中,所述标注单元还包括:
获取单元,用于获取标注语料数据,其中,所述标注语料数据为已经进行了标注的语料数据;
第一输入单元,用于将所述标注语料数据作为训练样本进行训练,得到序列标注模型;
第二输入单元,用于将所述预存语料数据输入序列标注模型中,得到标注实体。
可选的,在本发明的一些实施例中,所述筛选单元还包括:
筛选子单元,用于对所述标注实体进行主语筛选,以使得筛选出的主语形成主语文本;
去除单元,用于去除完主语文本的标注实体,形成语料模板。
可选的,在本发明的一些实施例中,还包括确定单元,
所述确定单元具体用于:确定所述主语文本与输出文本的映射关系。
可选的,在本发明的一些实施例中,所述组合单元还包括:
映射单元,用于将所述语料模板映射到实体列表;
遍历单元,用于将所述实体列表依次遍历所有子语料模板,得到组合后语料数据。
可选的,在本发明的一些实施例中,还包括生成子单元:
所述生产子单元具体用于:基于所述主语文本与输出文本的映射关系和所述组合后语料数据生成问答对文本。
可选的,在本发明的一些实施例中,所述组合单元包括:
第二获取单元,用于获取所述预存语料数据中的知识图谱实体;
第二去除单元,用于去除所述知识图谱中所述主语文本与输出文本映射关系匹配的实体,得到去除后的知识图谱实体;
组合子单元,用于将去除后的知识图谱实体与所述语料模板进行组合,得到组合后语料数据。
可选的,在本发明的一些实施例中,所述生成单元包括:
补全单元,用于将所述组合后语料数据通过补全接口进行补全,得到补全后语料数据;
第二生成子单元,用于基于所述问答文本和补全后语料数据生成目标语料数据,并输出所述目标语料数据。
相应的,本发明实施例还提供一种存储介质,所述存储介质存储有指令,所述指令被处理器执行时实现本发明实施例任一提供的方法中的步骤。
本发明实施例可以获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体,对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本,对所述语料模板进行分组,得到多个子语料模板,对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据,将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据,基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。本发明实施例可以缩短语料数据生成时间,且使得生成的语料数据更加全面。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的智能问答系统应用场景示意图。
图2是本发明实施例提供的语料生成方法的流程示意图。
图3是本发明实施例提供的语料生成方法的另一种流程示意图。
图4是本发明实施例提供的语料生成方法的应用场景示意图。
图5是本发明实施例提供的语料生成装置的结构示意图;
图6是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
本发明实施例提供一种语料生成方法、语料生成装置和存储介质。
请参阅图1,图1是本发明实施例提供的智能问答系统应用场景示意图,本申请实施例提供一种智能问答系统,智能问答系统包括电子设备和服务器,本发明实施例提供的语料生成装置可以集成在所述电子设备中,该电子设备可以为手机、平板电脑、笔记本电脑等设备。此外,电子设备还可以与其他设备连接,比如,服务器等设备。具体的,所述服务器可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器可以包括有网络通信单元、处理器和存储器等等。具体的,所述服务器可以为上述电子设备提供后台服务。
在实际应用中,智能问答系统用来支持应用程序中的线上问答服务,比如,智能问答系统支持腾讯叮当的问答服务,用户将搜索语句输入智能问答系统中,智能问答系统可以对搜索语句进行处理得到答案。一般情况下,智能问答系统还可以包括多个模块来搜索语句进行处理。具体的包括TASK模块、KBQA模块、IPQA模块以及百科模块等。比如,当用户的搜索语句达到智能问答系统的时候,首先由TASK模块来进行分类,这是一个多分类器,因为一条搜索语句可能同时属于好几个领域(比如“成都”就同时可能属于“地理”,“音乐”,“百科”等领域)。然后通过分数进行排序,如果综合排序第一的分数超过了我们设定的置信度分数(比如0.8),就可以认为这个搜索语句是一个合理的TASK领域的搜索语句,应该由task领域来进行解析处理。如果分数低于阈值,则向下分发,由KBQA(基于知识库的问答服务)或者IRQA(基于信息检索的问答服务)来进行处理。如果这两个模型还是不能处理得到结果,则继续下放给百科进行兜底处理,百科如果不能处理就继续下放给闲聊进行处理,最终得到结果返回给用户。使用IRQA服务时,语料数据的生成非常重要,采用本申请的语料生成装置生成语料数据可以缩短语料数据生成时间,且使得生成的语料数据更加全面。
本发明实施例提供的语料生成方法涉及人工智能领域中的自然语言处理方向。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
以下分别进行详细说明。需说明的是,以下实施例的顺序不作为对实施例优选顺序的限定。
在一实施例中,将从语料生成方法的角度进行描述,该语料生成方法具体可以集成在电子设备中。
请参阅图2所示,提供了一种语料生成方法,该语料生成方法可以由电子设备执行,具体流程可以如下:
101、获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体。
其中,预存的语料数据是数据库中已经存在的数据,该数据库可以是来自某线上应用一定时间段(比如一天、一周)内的用户搜索日志,比如,腾讯叮当中一段时间内的用户搜索日志。将预存语料数据进行标注,得到标注实体。
其中,在一些实施例中,所述“所述将所述预存语料数据进行序列标注,得到标注实体”,具体包括步骤:
(1)获取标注语料数据,其中,所述标注语料数据为已经进行了标注的语料数据;
(2)将所述标注语料数据作为训练样本进行训练,得到序列标注模型;
(3)将所述预存语料数据输入序列标注模型中,得到标注实体。
其中,标注语料数据可以来自于全领域的海量语料数据库中,标注语料数据是通过人工的方式对全领域的海量语料数据库中进行了标注的语料的数据。比如,语料数据人为的标注出了领域、属性等信息。
其中,将所述标注语料数据作为训练样本进行训练,得到序列标注模型。因为标注语料数据是已经经过标注的,将标注语料数据确定标注元素。然后定义特征模板,特征模板是根据标记元素生成若干个特征函数,确定参数,利用特征函数和确定参数进行模型训练,得到序列标注模型。根据序列标注模型可以对序列标注。需要说明的是,序列标注模型具体的可以为CRF++模型。本申请实施例中,对模型的训练不做过多赘述。
其中,将所述预存语料数据输入序列标注模型中,得到标注实体。利用已经训练好的语料标注模型在新的观测序列上找出概率最大最有可能的隐状态序列,从而完成对预存语料数据的标注,得到标注实体。
比如,对语料数据进行序列标注,能够标注出用户的搜索语句中的词语以及其对应的词性,槽位等(比如“电灯是谁发明的”“电”:BE(begin entity),“灯”:EE(endentity)),我们就能知道,这里面有一个实体,开始于“电”,终止与“灯”,那这个实体就是“电灯”。
102、对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本。
其中,对标注实体进行主语筛选,也就是将标注实体中的主语筛选出来,去除主语后的标注实体就是语料模板。语料模板包括具有扩展样例的通用文本。也就是,可以在语料模板今夕句式的扩展。
其中,在一些实施例中,所述“所述对所述标注实体进行筛选,以生成语料模板”,具体包括步骤:
(1)对所述标注实体进行主语筛选,以使得筛选出的主语形成主语文本;
(2)去除完主语文本的标注实体,形成语料模板。
其中,对标注实体进行主语筛选,也就是将标注实体中的主语筛选出来,去除主语后的标注实体就是语料模板。
比如,“电灯是谁发明的”,我们抽出来主语“电灯”,则主语文本为:“电灯”,而生成的语料模板就是:“[entity]是谁发明的。
其中,在一些实施例中,所述“所述对所述标注实体进行主语筛选,以使得筛选出的主语形成主语文本之后”具体包括步骤:
(3)确定所述主语文本与输出文本的映射关系。
其中,主语文本与输出文本的映射关系也就是主语和答案之间的映射关系。可以理解的是,主语文本与输出文本的映射关系可以是通过人工检测的方式确定。通过人工检测主语文本与输出文本的映射关系可以剔除错误的答案。
比如,用户的搜索语句是“电灯是谁发明的”,答案是“爱xx”,则主语是“电灯”,映射到的答案是“爱xx”。Dict[“电灯”]=“爱xx”。又比如,用户的搜索语句是“电灯是谁发明的”,答案是“爱xx”,“爱xxx”。我们可以剔除“爱xxx”这个错误答案。
103、对所述语料模板进行分组,得到多个子语料模板。
其中,对于所述语料模块进行分组得到多个子语料模块,将同一类的子语料模块分为组内语料模块,组内语料模块包括多个问法相同的语料模块。
比如,[谁发明了电灯]、[谁第一个发明了电灯],我们可以将[谁发明了电灯]、[谁第一个发明了电灯]分为同一组子语料模块,将同一组子语料模块集合则可以作为一个组内语料模块。
又比如“发明”和“发现”的语料模板就不能分在一起,这是因为发明和发现是不同的概念,你可以说“电灯是谁发明的”但是却不能说“电灯是谁发现的”,这种生成的用户的搜索语句是不对的,所以模板分组就避免了生成错误的候选语料。
104、对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据。
其中,子语料模块与实体列表进行交叉组合,可以得到若干个组合的语料模板,经过交叉组合后的语料模板为扩展语料数据。通过扩展语料数据可以丰富语料数据,从而使得基于用户的搜索语句得到的反馈更加准确。
其中,在一些实施例中,所述“对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据”,具体包括步骤:
(1)将所述语料模板映射到实体列表;
(2)将所述实体列表依次遍历所有子语料模板,得到扩展语料数据。
其中,将语料模板映射到实体列表,实际上就是将相同的模板抽离出来,与不同实体进行对应,从而将语料模板映射到实体列表中。
比如:“电灯是谁发明的”“雨伞是谁发明的”“空调是谁发明的”···》Dict[“[entity]是谁发明的”]=[“电灯”,“雨伞”,“空调”···]
其中,将所述实体列表依次遍历所有子语料模板,具体的,是将同一组内的子语料模块与实体列表交叉组合,得到扩展语料数据。
比如,同组内的子语料模板有两个:Dict[“[entity]是谁发明的”]=[“电灯”,“雨伞”,“空调”……],Dict[“谁第一个发明了[entity]”]=[“电话”,“电脑”,……],则[“电灯”,“雨伞”,“空调”……]也会遍历模板“谁第一个发明了[entity]”,[“电话”,“电脑”,……]也会遍历模板“[entity]是谁发明的”用来生成扩展语料数据。这样就会生成巨大的扩展语料数据,而且这些扩展语料数据都是有用的。
其中,在一些实施例中,所述“所述将所述实体列表依次遍历所有子语料模板,得到扩展语料数据之后”,具体包括步骤:
(1)基于所述主语文本与输出文本的映射关系和所述组合后语料数据生成问答对文本。
其中,问答文本就是输入用户的搜索语句都会产生一个相应的答案。由于主语文本与输出文本的映射关系已经确定了,也就是每一个主语都对应了一个答案,当所述实体列表依次遍历所有子语料模板时候,用的那个主语,这答案就是这个主语映射对应的答案。这样我们就得到了生成的扩展语料以及其对应的答案。
可以理解的是,通过这种方式,不用人工撰写答案,在用户输入搜索语句时,就能自动产生相应的答案。
105、将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据。
需要说明的是,不同领域的知识可以有对应的知识图谱(Knowledge Graph/Vault;又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系)。
其中,知识图谱实体是指,基于多个节点产生的网络关系。比如,爱xx发明了电灯,电灯属于电学领域,爱xx属于x国人,爱xx创造了通用电气有限公司。
其中,在一些实施例中,“所述将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据”,具体包括步骤:
(1)获取所述预存语料数据中的知识图谱实体;
(2)去除所述知识图谱中所述主语文本与输出文本映射关系匹配的实体,得到去除后的知识图谱实体;
(3)将去除后的知识图谱实体与所述语料模板进行组合,得到组合后语料数据。
其中,将预存语料数据中的知识图谱实体提取出来,这样可以形成一个庞大的数据。将主语文本与输出文本映射关系匹配的实体。也就是,将主语相对应的答案去除。这样可以避免对已经挖掘出来的语料数据做重复挖掘,减轻数据运载负荷。将去除后的知识图谱实体与所述语料模板进行组合,得到组合后语料数据。
比如,预存语料数据中包括电灯是谁发明的,该语料中关于电灯的知识图谱实体包括爱xx、1979年,x国等。由于,爱xx与电灯映射关系已经匹配了,那么将爱xx这个知识图谱实体去除,剩下的就是1979年、x国的知识图谱实体与语料模板进行组合,例如,1谁发明的与1979年组合,谁发明与x国组合。最终得到组合后的语料数据。
106、基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。
其中,扩展语料数据的生成方法能够大大的缓解算法压力,组合后语料数据的生产方法能够大大的缓解数据的压力。这样使得本申请生产的目标语料数据能够既能缓解算法压力,又能缓解数据压力。从而可以缩短语料数据生成时间,且使得生成的语料数据更加全面。
其中,在一些实施例中,所述“所述基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据”,具体包括步骤:
(1)将所述组合后语料数据通过补全接口进行补全,得到补全后语料数据;
(2)基于所述问答文本和补全后语料数据生成目标语料数据,并输出所述目标语料数据。
其中,利用百度的智能补全和介意接口对组合后语料数据进行补全。利用百度的开放资源和相关领域的资源。因为百度每天的查询次数是几十亿级别的,它的扩展词和补充词汇做的比较完善。我们将百度的智能补全介意接口利用起来从而优化语料数据,使得能够自动补全答案。
比如,代表输入的用户的搜索语句为“为什么秋葵”,召回的用户搜索语句为:“为什么秋葵有粘液”,“为什么秋葵壮阳”,“为什么秋葵那么难吃”,“为什么秋葵有点苦”,“为啥秋葵的籽是苦的”,“为啥秋葵是植物伟哥”,“为啥秋葵开过花就落了”。如果在百度的搜索里高频出现,则通过了校验。将用户的搜索语句进行召回。
其中,将所述问答文本和补全后语料数据生成目标语料数据,目标语料数据能够。基于目标语料数据,我们可以自动补充用户的搜索语句,以及自动撰写出用户的搜索语句对应的答案。
本发明实施例可以获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体,对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本,对所述语料模板进行分组,得到多个子语料模板,对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据,将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据,基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。本发明实施例可以缩短语料数据生成时间,且使得生成的语料数据更加全面。
如图3所示,提供了另一种语料生成方法,该语料生成方法可以由电子设备中执行,具体流程可以如下:
201、电子设备获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体。
需要说明的是,预存的语料数据是电子设备中的数据库已经存在的数据,该数据库可以是来自某线上应用一定时间段(比如一天、一周)内的用户搜索日志,比如,腾讯叮当中一段时间内的用户搜索日志。将预存语料数据进行标注,得到标注实体。
202、电子设备对所述标注实体进行主语筛选,以使得筛选出的主语形成主语文本。
需要说明是,电子设备对标注实体进行主语筛选,也就是将标注实体中的主语筛选出来,筛选出来的主语为主语文本。
比如,比如,“电灯是谁发明的”,我们抽出来主语“电灯”,则主语文本为:“电灯”。
203、电子设备去除完主语文本的标注实体,形成语料模板。
需要说明的是,电子设备去除主语后的标注实体就是语料模板。
比如,“电灯是谁发明的”,我们抽出来主语“电灯”,生成的语料模板就是:“[entity]是谁发明的。
204、电子设备确定所述主语文本与输出文本的映射关系。
需要说明的是,电子设备确定主语文本与输出文本的映射关系也就是主语和答案之间的映射关系。
比如,用户的搜索语句是“电灯是谁发明的”,答案是“爱xx”,则主语是“电灯”,映射到的答案是“爱xx”。Dict[“电灯”]=“爱xx”。又比如,用户的搜索语句是“电灯是谁发明的”,答案是“爱xx”,“爱xxx”。我们可以剔除“爱xxx”这个错误答案。
205、电子设备对所述语料模板进行分组,得到多个子语料模板。
需要说明的是,电子设备对于所述语料模块进行分组得到多个子语料模块,将同一类的子语料模块分为组内语料模块,组内语料模块包括多个问法相同的语料模块。
比如,[谁发明了电灯]、[谁第一个发明了电灯],我们可以将[谁发明了电灯]、[谁第一个发明了电灯]分为同一组子语料模块,将同一组子语料模块集合则可以作为一个组内语料模块。
206、电子设备将所述语料模板映射到实体列表。
需要说明的是,将语料模板映射到实体列表,实际上就是将相同的模板抽离出来,与不同实体进行对应,从而将语料模板映射到实体列表中。
比如:“电灯是谁发明的”“雨伞是谁发明的”“空调是谁发明的”···》Dict[“[entity]是谁发明的”]=[“电灯”,“雨伞”,“空调”···]
207、电子设备将所述实体列表依次遍历所有子语料模板,得到扩展语料数据。
需要说明的是,电子设备将所述实体列表依次遍历所有子语料模板,具体的,是将同一组内的子语料模块与实体列表交叉组合,得到扩展语料数据。
208、电子设备基于所述主语文本与输出文本的映射关系和所述组合后语料数据生成问答对文本。
需要说明的是,问答文本就是输入用户的搜索语句都会产生一个相应的答案。由于主语文本与输出文本的映射关系已经确定了,也就是每一个主语都对应了一个答案,当所述实体列表依次遍历所有子语料模板时候,用的那个主语,这答案就是这个主语映射对应的答案。这样我们就得到了生成的扩展语料以及其对应的答案。
209、电子设备获取所述预存语料数据中的知识图谱实体。
需要说明的是,电子设备将预存语料数据中的知识图谱实体提取出来,这样可以形成一个庞大的数据。
210、电子设备去除所述知识图谱中所述主语文本与输出文本映射关系匹配的实体,得到去除后的知识图谱实体。
需要说明的是,电子设备主语相对应的答案去除。这样可以避免对已经挖掘出来的语料数据做重复挖掘,减轻数据运载负荷。
211、电子设备将去除后的知识图谱实体与所述语料模板进行组合,得到组合后语料数据。
需要说明的是,将去除后的知识图谱实体与所述语料模板进行组合,得到组合后语料数据。
比如,预存语料数据中包括电灯是谁发明的,该语料中关于电灯的知识图谱实体包括爱xx、1979年,x国等。由于,爱xx与电灯映射关系已经匹配了,那么将爱xx这个知识图谱实体去除,剩下的就是1979年、x国的知识图谱实体与语料模板进行组合,例如,1谁发明的与1979年组合,谁发明与x国组合。最终得到组合后的语料数据。
212、电子设备将所述组合后语料数据通过补全接口进行补全,得到补全后语料数据。
需要说明的是,利用百度的智能补全和介意接口对组合后语料数据进行补全。利用百度的开放资源和相关领域的资源。因为百度每天的查询次数是几十亿级别的,它的扩展词和补充词汇做的比较完善。我们将百度的智能补全介意接口利用起来从而优化语料数据,使得能够自动补全答案。
213、电子设备基于所述问答文本和补全后语料数据生成目标语料数据,并输出所述目标语料数据。
请参阅图4,电子设备将所述问答文本和补全后语料数据生成目标语料数据,目标语料数据能够。基于目标语料数据,我们可以自动补充用户的搜索语句,以及自动撰写出用户的搜索语句对应的答案。
本发明实施例可以获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体,对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本,对所述语料模板进行分组,得到多个子语料模板,对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据,将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据,基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。本发明实施例可以缩短语料数据生成时间,且使得生成的语料数据更加全面。
为便于更好的实施本发明实施例提供的语料生成方法,本发明实施例还提供一种基于上述语料生成方法的装置(简称生成装置)。其中名词的含义与上述语料生成方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图5,图5本发明实施例提供的语料生成装置的结构示意图,其中该生成装置可以包括标注单元301、筛选单元302、分组单元303、交叉组合单元30、组合单元305以及生成单元306,具体可以如下:
标注单元301,用于获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体;
筛选单元302,用于对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本;
分组单元303,用于对所述语料模板进行分组,得到多个子语料模板;
交叉组合单元304,用于对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据;
组合单元305,用于将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据;
生成单元306,用于基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。
可选的,在本发明的一些实施例中,所述标注单元301还包括:
第一获取单元,用于获取标注语料数据,其中,所述标注语料数据为已经进行了标注的语料数据;
第一输入单元,用于将所述标注语料数据作为训练样本进行训练,得到序列标注模型;
第二输入单元,用于将所述预存语料数据输入序列标注模型中,得到标注实体。
可选的,在本发明的一些实施例中,所述筛选单元302还包括:
筛选子单元,用于对所述标注实体进行主语筛选,以使得筛选出的主语形成主语文本;
第一去除单元,用于去除完主语文本的标注实体,形成语料模板。
可选的,在本发明的一些实施例中,还包括确定单元307,
所述确定单元307具体用于:确定所述主语文本与输出文本的映射关系。
可选的,在本发明的一些实施例中,所述组合单元305还包括:
映射单元,用于将所述语料模板映射到实体列表;
遍历单元,用于将所述实体列表依次遍历所有子语料模板,得到组合后语料数据。
可选的,在本发明的一些实施例中,还包括生成子单元308:
所述生产子单元308具体用于:基于所述主语文本与输出文本的映射关系和所述组合后语料数据生成问答对文本。
可选的,在本发明的一些实施例中,所述组合单元305包括:
第二获取单元,用于获取所述预存语料数据中的知识图谱实体;
第二去除单元,用于去除所述知识图谱中所述主语文本与输出文本映射关系匹配的实体,得到去除后的知识图谱实体;
组合子单元,用于将去除后的知识图谱实体与所述语料模板进行组合,得到组合后语料数据。
可选的,在本发明的一些实施例中,所述生成单元306包括:
补全单元,用于将所述组合后语料数据通过补全接口进行补全,得到补全后语料数据;
第二生成子单元,用于基于所述问答文本和补全后语料数据生成目标语料数据,并输出所述目标语料数据。
本申请语料生成装置可以包括标注单元301、筛选单元302、分组单元303、交叉组合单元30、组合单元305以及生成单元306,其中标注单元301用于获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体;筛选单元302用于对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本;分组单元303用于对所述语料模板进行分组,得到多个子语料模板;交叉组合单元304用于对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据;组合单元305用于将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据;生成单元306用于基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。本发明实施例可以缩短语料数据生成时间,且使得生成的语料数据更加全面。
相应的,本发明实施例还提供一种电子设备,如图6所示,该电子设备可以包括射频(RF,Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi,WirelessFidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。通常,RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器608和输入单元603对存储器602的访问。
输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元603可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器608,并能接收处理器608发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元603还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元604可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid CrystalDisplay)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器608以确定触摸事件的类型,随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图6中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
电子设备还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在电子设备移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路606、扬声器,传声器可提供用户与电子设备之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路606接收后转换为音频数据,再将音频数据输出处理器608处理后,经RF电路601以发送给比如另一电子设备,或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔,以提供外设耳机与电子设备的通信。
WiFi属于短距离无线传输技术,电子设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块607,但是可以理解的是,其并不属于电子设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器608是电子设备的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行电子设备的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器608可包括一个或多个处理核心;优选的,处理器608可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器608中。
电子设备还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理系统与处理器608逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备中的处理器608会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的应用程序,从而实现各种功能:
获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体,对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本,对所述语料模板进行分组,得到多个子语料模板,对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据,将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据,基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。本发明实施例可以缩短语料数据生成时间,且使得生成的语料数据更加全面。
本发明实施例可以获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体,对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本,对所述语料模板进行分组,得到多个子语料模板,对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据,将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据,基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。本发明实施例可以缩短语料数据生成时间,且使得生成的语料数据更加全面。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种语料生成方法中的步骤。例如,该指令可以执行如下步骤:
本发明实施例可以获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体,对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本,对所述语料模板进行分组,得到多个子语料模板,对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据,将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据,基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种语料生成方法中的步骤,因此,可以实现本发明实施例所提供的任一种语料生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的语料生成方法、语料生成装置、和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种语料生成方法,其特征在于,包括:
获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体;
对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本;
对所述语料模板进行分组,得到多个子语料模板;
对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据;
将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据;
基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。
2.根据权利要求1所述的语料生成方法,其特征在于,所述将所述预存语料数据进行序列标注,得到标注实体,包括:
获取标注语料数据,其中,所述标注语料数据为已经进行了标注的语料数据;
将所述标注语料数据作为训练样本进行训练,得到序列标注模型;
将所述预存语料数据输入序列标注模型中,得到标注实体。
3.根据权利要求1所述的语料生成方法,其特征在于,所述对所述标注实体进行筛选,以生成语料模板,包括:
对所述标注实体进行主语筛选,以使得筛选出的主语形成主语文本;
去除完主语文本的标注实体,形成语料模板。
4.根据权利要求3所述的语料生成方法,其特征在于,所述对所述标注实体进行主语筛选,以使得筛选出的主语形成主语文本之后,包括:
确定所述主语文本与输出文本的映射关系。
5.根据权利要求4所述的语料生成方法,其特征在于,所述对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据,包括:
将所述语料模板映射到实体列表;
将所述实体列表依次遍历所有子语料模板,得到扩展语料数据。
6.根据权利要求5所述的语料生成方法,其特征在于,所述将所述实体列表依次遍历所有子语料模板,得到扩展语料数据之后,包括:
基于所述主语文本与输出文本的映射关系和所述组合后语料数据生成问答对文本。
7.根据权利要求4所述的语料生成方法,其特征在于,所述将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据,包括:
获取所述预存语料数据中的知识图谱实体;
去除所述知识图谱中所述主语文本与输出文本映射关系匹配的实体,得到去除后的知识图谱实体;
将去除后的知识图谱实体与所述语料模板进行组合,得到组合后语料数据。
8.根据权利要求6所述的语料生成方法,其特征在于,所述基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据,包括:
将所述组合后语料数据通过补全接口进行补全,得到补全后语料数据;
基于所述问答文本和补全后语料数据生成目标语料数据,并输出所述目标语料数据。
9.一种语料生成装置,其特征在于,包括:
标注单元,用于获取预存语料数据,并将所述预存语料数据进行序列标注,得到标注实体;
筛选单元,用于对所述标注实体进行筛选,以生成语料模板,其中,所述语料模板包括具有扩展样例的通用文本;
分组单元,用于对所述语料模板进行分组,得到多个子语料模板;
交叉组合单元,用于对多个子语料模板与实体列表进行交叉组合,得到扩展语料数据;
组合单元,用于将所述预存语料数据中的知识图谱实体与所述语料模板进行组合,得到组合后语料数据;
生成单元,用于基于所述扩展语料数据和所述组合后语料数据生成目标语料数据,并输出所述目标语料数据。
10.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8中语料生成方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911096541.8A CN110852109A (zh) | 2019-11-11 | 2019-11-11 | 语料生成方法、语料生成装置、和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911096541.8A CN110852109A (zh) | 2019-11-11 | 2019-11-11 | 语料生成方法、语料生成装置、和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852109A true CN110852109A (zh) | 2020-02-28 |
Family
ID=69601187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911096541.8A Pending CN110852109A (zh) | 2019-11-11 | 2019-11-11 | 语料生成方法、语料生成装置、和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852109A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488463A (zh) * | 2020-04-09 | 2020-08-04 | 中国银行股份有限公司 | 测试语料生成方法、装置及电子设备 |
CN111563375A (zh) * | 2020-05-07 | 2020-08-21 | 北京捷通华声科技股份有限公司 | 一种文本生成方法和装置 |
CN112486991A (zh) * | 2020-11-26 | 2021-03-12 | 北京字跳网络技术有限公司 | 数据库报表处理方法、装置和电子设备 |
CN112597748A (zh) * | 2020-12-18 | 2021-04-02 | 深圳赛安特技术服务有限公司 | 语料生成方法、装置、设备及计算机可读存储介质 |
CN112885352A (zh) * | 2021-01-26 | 2021-06-01 | 广东电网有限责任公司 | 一种语料库的构建方法、装置、计算机设备及存储介质 |
CN113392631A (zh) * | 2020-12-02 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种语料扩展的方法以及相关装置 |
CN113919366A (zh) * | 2021-09-06 | 2022-01-11 | 国网河北省电力有限公司电力科学研究院 | 一种面向电力变压器知识问答的语义匹配方法和装置 |
CN114298001A (zh) * | 2021-11-29 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 语料模板生成方法、装置、电子设备及存储介质 |
Citations (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514194A (zh) * | 2012-06-21 | 2014-01-15 | 富士通株式会社 | 确定语料与实体的相关性的方法和装置及分类器训练方法 |
CN105243052A (zh) * | 2015-09-15 | 2016-01-13 | 浪潮软件集团有限公司 | 一种语料标注方法、装置和系统 |
US20170161363A1 (en) * | 2015-12-04 | 2017-06-08 | International Business Machines Corporation | Automatic Corpus Expansion using Question Answering Techniques |
CN106897364A (zh) * | 2017-01-12 | 2017-06-27 | 上海大学 | 基于事件的中文指代语料库构建方法 |
CN106951468A (zh) * | 2017-03-02 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 对话生成方法及装置 |
CN107004000A (zh) * | 2016-06-29 | 2017-08-01 | 深圳狗尾草智能科技有限公司 | 一种语料生成装置和方法 |
CN107526724A (zh) * | 2017-08-22 | 2017-12-29 | 北京百度网讯科技有限公司 | 用于标注语料的方法及装置 |
CN107784048A (zh) * | 2016-11-14 | 2018-03-09 | 平安科技(深圳)有限公司 | 问答语料库的问题分类方法及装置 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN107992476A (zh) * | 2017-11-28 | 2018-05-04 | 苏州大学 | 面向句子级生物关系网络抽取的语料库生成方法及系统 |
US20180225374A1 (en) * | 2017-02-07 | 2018-08-09 | International Business Machines Corporation | Automatic Corpus Selection and Halting Condition Detection for Semantic Asset Expansion |
CN108509406A (zh) * | 2017-02-24 | 2018-09-07 | 北京搜狗科技发展有限公司 | 一种语料抽取方法、装置和电子设备 |
CN109376224A (zh) * | 2018-10-24 | 2019-02-22 | 深圳市壹鸽科技有限公司 | 语料过滤方法与装置 |
CN109408821A (zh) * | 2018-10-22 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种语料生成方法、装置、计算设备及存储介质 |
CN109446300A (zh) * | 2018-09-06 | 2019-03-08 | 厦门快商通信息技术有限公司 | 一种语料预处理方法、语料预标注方法及电子设备 |
CN109522415A (zh) * | 2018-10-17 | 2019-03-26 | 厦门快商通信息技术有限公司 | 一种语料标注方法及装置 |
CN109582787A (zh) * | 2018-11-05 | 2019-04-05 | 远光软件股份有限公司 | 一种火力发电领域语料数据的实体分类方法及装置 |
CN109597873A (zh) * | 2018-11-21 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 语料数据的处理方法、装置、计算机可读介质及电子设备 |
CN109766453A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种用户语料语义理解的方法及系统 |
CN109783775A (zh) * | 2019-01-18 | 2019-05-21 | 广东小天才科技有限公司 | 一种标记用户语料的内容的方法及系统 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN110147436A (zh) * | 2019-03-18 | 2019-08-20 | 清华大学 | 一种基于教育知识图谱与文本的混合自动问答方法 |
CN110188204A (zh) * | 2019-06-11 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110209804A (zh) * | 2018-04-20 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 目标语料的确定方法和装置、存储介质及电子装置 |
CN110209764A (zh) * | 2018-09-10 | 2019-09-06 | 腾讯科技(北京)有限公司 | 语料标注集的生成方法及装置、电子设备、存储介质 |
CN110222192A (zh) * | 2019-05-20 | 2019-09-10 | 国网电子商务有限公司 | 语料库建立方法及装置 |
CN110263120A (zh) * | 2019-04-26 | 2019-09-20 | 北京零秒科技有限公司 | 语料标注方法及装置 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110309507A (zh) * | 2019-05-30 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 测试语料生成方法、装置、计算机设备和存储介质 |
CN110321437A (zh) * | 2019-05-27 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 一种语料数据处理方法、装置、电子设备及介质 |
CN110399499A (zh) * | 2019-07-18 | 2019-11-01 | 珠海格力电器股份有限公司 | 一种语料生成方法、装置、电子设备及可读存储介质 |
CN110427622A (zh) * | 2019-07-23 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 语料标注的评估方法、装置及存储介质 |
-
2019
- 2019-11-11 CN CN201911096541.8A patent/CN110852109A/zh active Pending
Patent Citations (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514194A (zh) * | 2012-06-21 | 2014-01-15 | 富士通株式会社 | 确定语料与实体的相关性的方法和装置及分类器训练方法 |
CN105243052A (zh) * | 2015-09-15 | 2016-01-13 | 浪潮软件集团有限公司 | 一种语料标注方法、装置和系统 |
US20170161363A1 (en) * | 2015-12-04 | 2017-06-08 | International Business Machines Corporation | Automatic Corpus Expansion using Question Answering Techniques |
CN107004000A (zh) * | 2016-06-29 | 2017-08-01 | 深圳狗尾草智能科技有限公司 | 一种语料生成装置和方法 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN107784048A (zh) * | 2016-11-14 | 2018-03-09 | 平安科技(深圳)有限公司 | 问答语料库的问题分类方法及装置 |
CN106897364A (zh) * | 2017-01-12 | 2017-06-27 | 上海大学 | 基于事件的中文指代语料库构建方法 |
US20180225374A1 (en) * | 2017-02-07 | 2018-08-09 | International Business Machines Corporation | Automatic Corpus Selection and Halting Condition Detection for Semantic Asset Expansion |
CN108509406A (zh) * | 2017-02-24 | 2018-09-07 | 北京搜狗科技发展有限公司 | 一种语料抽取方法、装置和电子设备 |
CN106951468A (zh) * | 2017-03-02 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 对话生成方法及装置 |
WO2018157700A1 (zh) * | 2017-03-02 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 对话生成方法、装置及存储介质 |
CN107526724A (zh) * | 2017-08-22 | 2017-12-29 | 北京百度网讯科技有限公司 | 用于标注语料的方法及装置 |
CN107992476A (zh) * | 2017-11-28 | 2018-05-04 | 苏州大学 | 面向句子级生物关系网络抽取的语料库生成方法及系统 |
CN110209804A (zh) * | 2018-04-20 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 目标语料的确定方法和装置、存储介质及电子装置 |
CN109446300A (zh) * | 2018-09-06 | 2019-03-08 | 厦门快商通信息技术有限公司 | 一种语料预处理方法、语料预标注方法及电子设备 |
CN110209764A (zh) * | 2018-09-10 | 2019-09-06 | 腾讯科技(北京)有限公司 | 语料标注集的生成方法及装置、电子设备、存储介质 |
CN109522415A (zh) * | 2018-10-17 | 2019-03-26 | 厦门快商通信息技术有限公司 | 一种语料标注方法及装置 |
CN109408821A (zh) * | 2018-10-22 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种语料生成方法、装置、计算设备及存储介质 |
CN109376224A (zh) * | 2018-10-24 | 2019-02-22 | 深圳市壹鸽科技有限公司 | 语料过滤方法与装置 |
CN109582787A (zh) * | 2018-11-05 | 2019-04-05 | 远光软件股份有限公司 | 一种火力发电领域语料数据的实体分类方法及装置 |
CN109597873A (zh) * | 2018-11-21 | 2019-04-09 | 腾讯科技(深圳)有限公司 | 语料数据的处理方法、装置、计算机可读介质及电子设备 |
CN109766453A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种用户语料语义理解的方法及系统 |
CN109783775A (zh) * | 2019-01-18 | 2019-05-21 | 广东小天才科技有限公司 | 一种标记用户语料的内容的方法及系统 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN110147436A (zh) * | 2019-03-18 | 2019-08-20 | 清华大学 | 一种基于教育知识图谱与文本的混合自动问答方法 |
CN110263120A (zh) * | 2019-04-26 | 2019-09-20 | 北京零秒科技有限公司 | 语料标注方法及装置 |
CN110222192A (zh) * | 2019-05-20 | 2019-09-10 | 国网电子商务有限公司 | 语料库建立方法及装置 |
CN110321437A (zh) * | 2019-05-27 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 一种语料数据处理方法、装置、电子设备及介质 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110309507A (zh) * | 2019-05-30 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 测试语料生成方法、装置、计算机设备和存储介质 |
CN110188204A (zh) * | 2019-06-11 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110399499A (zh) * | 2019-07-18 | 2019-11-01 | 珠海格力电器股份有限公司 | 一种语料生成方法、装置、电子设备及可读存储介质 |
CN110427622A (zh) * | 2019-07-23 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 语料标注的评估方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
JIE ZHOU,等: "Automatically building large-scale named entity recognition corpora from Chinese Wikipedia", FRONT INFORM TECHNOL ELECTRON ENG, vol. 16, no. 11, 31 December 2015 (2015-12-31), pages 940 - 956, XP035714730, DOI: 10.1631/FITEE.1500067 * |
林波,等: "基于双层语料过滤器的短语抽取方法", 计算机与现代化, no. 12, 31 December 2015 (2015-12-31), pages 7 - 14 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488463B (zh) * | 2020-04-09 | 2023-08-29 | 中国银行股份有限公司 | 测试语料生成方法、装置及电子设备 |
CN111488463A (zh) * | 2020-04-09 | 2020-08-04 | 中国银行股份有限公司 | 测试语料生成方法、装置及电子设备 |
CN111563375A (zh) * | 2020-05-07 | 2020-08-21 | 北京捷通华声科技股份有限公司 | 一种文本生成方法和装置 |
CN111563375B (zh) * | 2020-05-07 | 2021-04-09 | 北京捷通华声科技股份有限公司 | 一种文本生成方法和装置 |
CN112486991A (zh) * | 2020-11-26 | 2021-03-12 | 北京字跳网络技术有限公司 | 数据库报表处理方法、装置和电子设备 |
CN112486991B (zh) * | 2020-11-26 | 2024-03-01 | 北京字跳网络技术有限公司 | 数据库报表处理方法、装置和电子设备 |
CN113392631B (zh) * | 2020-12-02 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 一种语料扩展的方法以及相关装置 |
CN113392631A (zh) * | 2020-12-02 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种语料扩展的方法以及相关装置 |
CN112597748A (zh) * | 2020-12-18 | 2021-04-02 | 深圳赛安特技术服务有限公司 | 语料生成方法、装置、设备及计算机可读存储介质 |
CN112597748B (zh) * | 2020-12-18 | 2023-08-11 | 深圳赛安特技术服务有限公司 | 语料生成方法、装置、设备及计算机可读存储介质 |
CN112885352A (zh) * | 2021-01-26 | 2021-06-01 | 广东电网有限责任公司 | 一种语料库的构建方法、装置、计算机设备及存储介质 |
CN113919366A (zh) * | 2021-09-06 | 2022-01-11 | 国网河北省电力有限公司电力科学研究院 | 一种面向电力变压器知识问答的语义匹配方法和装置 |
CN114298001A (zh) * | 2021-11-29 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 语料模板生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852109A (zh) | 语料生成方法、语料生成装置、和存储介质 | |
CN110381388B (zh) | 一种基于人工智能的字幕生成方法和装置 | |
TWI684148B (zh) | 聯絡人的分組處理方法及裝置 | |
US20190220513A1 (en) | Method and apparatus for determining a reply statement | |
CN109783798A (zh) | 文本信息添加图片的方法、装置、终端及存储介质 | |
CN110704661B (zh) | 一种图像分类方法和装置 | |
CN109815363A (zh) | 歌词内容的生成方法、装置、终端及存储介质 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN114722937B (zh) | 一种异常数据检测方法、装置、电子设备和存储介质 | |
CN112214605A (zh) | 一种文本分类方法和相关装置 | |
CN110321559B (zh) | 自然语言问题的答案生成方法、装置及存储介质 | |
CN114328852A (zh) | 一种文本处理的方法、相关装置及设备 | |
CN111612178A (zh) | 一种模型的诊断方法及相关设备 | |
CN110597957B (zh) | 一种文本信息检索的方法及相关装置 | |
CN114357278A (zh) | 一种话题推荐方法、装置及设备 | |
CN110781274A (zh) | 一种问答对生成的方法与装置 | |
CN111553163A (zh) | 文本相关度的确定方法、装置、存储介质及电子设备 | |
CN109389977B (zh) | 一种语音交互方法及装置 | |
CN110019648B (zh) | 一种训练数据的方法、装置及存储介质 | |
CN112232048B (zh) | 一种基于神经网络的表格处理方法以及相关装置 | |
CN113704008A (zh) | 一种异常检测方法、问题诊断方法和相关产品 | |
CN114970562A (zh) | 语义理解方法、装置、介质及设备 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 | |
CN109637543B (zh) | 语音卡的语音数据处理方法和装置 | |
CN113763929A (zh) | 一种语音评测方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40021446 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |