CN108932218A - 一种实例扩展方法、装置、设备和介质 - Google Patents

一种实例扩展方法、装置、设备和介质 Download PDF

Info

Publication number
CN108932218A
CN108932218A CN201810712921.9A CN201810712921A CN108932218A CN 108932218 A CN108932218 A CN 108932218A CN 201810712921 A CN201810712921 A CN 201810712921A CN 108932218 A CN108932218 A CN 108932218A
Authority
CN
China
Prior art keywords
text fragments
synonymous
core
text
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810712921.9A
Other languages
English (en)
Other versions
CN108932218B (zh
Inventor
王鸣
王一鸣
姜文斌
孙珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810712921.9A priority Critical patent/CN108932218B/zh
Publication of CN108932218A publication Critical patent/CN108932218A/zh
Application granted granted Critical
Publication of CN108932218B publication Critical patent/CN108932218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Abstract

本发明实施例公开了一种实例扩展方法、装置、设备和介质,涉及自然语言处理技术领域。本发明实施例提供了一种实例扩展方法,该方法包括:确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段;将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例。本发明实施例提供的一种实例扩展方法、装置、设备和介质,可以生成句式不同于待扩展实例的扩展实例,从而实现了对扩展实例句式的丰富。

Description

一种实例扩展方法、装置、设备和介质
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种实例扩展方法、装置、设备和介质。
背景技术
针对于搜索项(query)理解任务,较普遍的方式是采用将query解析为意图和槽位的形式,即将query中的关键信息标注为槽位,将query的目的标注为意图。比如“明天天气怎么样”,意图为天气查询,槽位信息为明天。
在机器学习中,通常基于序列标注模型对query进行理解和应答。然而,序列标注模型的训练需要大量的有标注意图和槽位信息的实例数据作为训练样本。目前,实例数据获取主要方法是:对人工标注的少量待扩展实例进行识别,利用同义词库中的同义词对识别到的关键词进行替换,以获取更多扩展实例。例如,待扩展实例为明天天气怎么样,扩展实例可以是明日天气怎么样和翌日天气怎么样等。
但是,因为仅是对待扩展实例中的关键词的替换,所以生成的扩展实例的句子结构与待扩展实例的句子结构相同,从而导致生成的扩展实例的句式单一。然而单一句式的扩展实例对序列标注模型训练的提升有限。
发明内容
本发明实施例提供一种实例扩展方法、装置、设备和介质,以生成句式不同于待扩展实例的扩展实例,从而实现了对扩展实例句式的丰富。
第一方面,本发明实施例提供了一种实例扩展方法,该方法包括:
确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段;
将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例。
第二方面,本发明实施例还提供了一种实例扩展装置,该装置包括:
同义文本确定模块,用于确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段;
扩展实例生成模块,用于将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的实例扩展方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的实例扩展方法。
本发明实施例通过将待扩展实例中包括至少一个句子的非核心片段替换为所述非核心片段的同义文本,生成扩展实例。
因为是对至少一个句子的非核心片段的替换,而不仅仅是对某个关键词的替换,所以经过替换生成的扩展实例的句式往往不同于待扩展实例。
又因为是对非核心片段的替换,所以经过替换生成的扩展实例不会发生转义。从而生成具有丰富句式,且没有发生转义的扩展实例。
附图说明
图1为本发明实施例一提供的一种实例扩展方法的流程图;
图2是本发明实施例二提供的一种实例扩展方法的流程图;
图3是本发明实施例三提供的一种实例扩展方法的流程图;
图4a是本发明实施例四提供的一种实例扩展方法的流程图;
图4b是本发明实施例四提供的一种同义文本片段挖掘方法的流程图;
图5是本发明实施例五提供的一种实例扩展装置的结构示意图;
图6为本发明实施例六提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种实例扩展方法的流程图。本实施例可适用于依据少量的待扩展实例进行实例扩展的情况。该方法可以由一种实例扩展装置来执行,该装置可以由软件和/或硬件的方式实现。参见图1,本实施例提供的一种实例扩展方法包括:
S110、确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段。
其中,将用户提供的少量query作为待扩展实例。非核心文本片段是query中除核心关键词以外的文本片段。该文本片段可以是一个关键词,也可以是包含至少两个关键词的句子片段。因此,非核心文本片段可以包括一个、两个或多个句子成分。
继续以待扩展实例是明天天气怎么样为例,若将时间关键词明天作为核心关键词,则非核心文本片段就是天气怎么样。若将天气关键词作为核心关键词,则非核心文本片段就是明天以及怎么样。
具体地,可以基于同义词库确定同义文本片段。因为同义词中存储的是同义词,所以仅基于同义词确定的同义文本片段的句子结构相对单一。
典型地,可以基于大数据数据库确定同义文本片段。具体大数据数据库可以包括在互联网中流通的任意数据。
可选地,待扩展实例中非核心文本片段的同义文本片段的确定方法可以是:
确定待扩展实例的非核心文本片段中每个句子成分的成分同义文本片段;
将每个句子成分的成分同义文本片段组合,生成同义文本片段。
其中,成分同义文本片段是对应非核心文本片段中每个句子成分的文本片段。每个句子成分的成分同义文本片段有多个,基于多个成分同义文本片段进行同义文本片段的组合。
示例性的,以待扩展实例是明天天气怎么样,非核心文本片段是天气怎么样为例。分别确定天气和怎么样的成分同义文本片段。具体地,天气的成分同义文本片段是气象、天津天气和中国天气等,怎么样的成分同义文本片段是如何。将气象、天津天气和中国天气,分别与如何进行组合,生成同义文本片段:气象如何、天津天气如何和中国天气如何等同义文本片段。
其中,因为天津天气如何和中国天气如何都添加了地点状语,所以同义文本片段的句子结构与非核心文本片段的句子结构是不同的。
待扩展实例中非核心文本片段的同义文本片段的确定方法也可以是:
确定待扩展实例的非核心片段中至少两个句子成分的多成分同义文本片段;
将至少一个所述多成分同义文本组合,生成同义文本片段。
示例性的,以待扩展实例是明天天气怎么样,非核心文本片段是天气怎么样为例。确定天气怎么样的多成分同义文本片段。具体地,天气怎么样的多成分同义文本片段可以是:天气预报、气象报告、天气如何和天气冷吗等。并将每个多成分同义文本片段作为非核心文本片段的同义文本片段。
可见,上述同义文本片段中天气预报和气象报告的句子结构不同于非核心文本片段的句子结构。
S120、将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例。
可选的,对待扩展实例中非核心文本片段的确定可以是:由人工在确定待扩展实例时直接标注出来,也可以基于对待扩展实例的文本分析,根据设定规则进行非核心文本片段的提取。
因为同义文本片段的句子结构不同于非核心文本片段的句子结构,所以经过同义文本片段替换生成的扩展实例的句式不同于所述待扩展实例的句式。
本发明实施例的技术方案,通过将待扩展实例中包括至少一个句子的非核心片段替换为所述非核心片段的同义文本,生成扩展实例。
因为是对至少一个句子的非核心片段的替换,而不仅仅是对某个关键词的替换,所以经过替换生成的扩展实例的句式往往不同于待扩展实例。
又因为是对非核心片段的替换,所以经过替换生成的扩展实例不会发生转义。从而生成具有丰富句式,且没有发生转义的扩展实例。
为提高扩展实例的准率,在将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例之前,还包括:
基于所述非核心文本片段在所述待扩展实例中的上文和/或下文,对所述同义文本片段进行筛选。
具体的,对所述非核心文本片段在所述待扩展实例中的上文和/或下文进行语义分析;将语义与上述上文和/或下文的语义不符的同义文本剔除。从而实现基于语义对同义文本片段进行筛选。
实施例二
图2是本发明实施例二提供的一种实例扩展方法的流程图。本实例在上述实施例的基础上提出的一种可选方案。参见图2,本实施例提供的实例扩展方法包括:
S210、基于文本特征,确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段。
其中,所述文本特征包括词性、短语共现、用户点击和句式中的至少一种。
短语共现用于描述至少两个短语或关键词同时出现的次数。例如,在天气搜索中,搜索结果中出现天气和气象的次数。
用户点击用于描述对搜索结果中短语或关键词点击的次数。例如,对搜索结果中的天气和气象的点击次数。
为获取具有不同句子结构的同义文本片段,可从大数据数据库中进行同义文本片段的确定。
为实现从大数据数据库中确定出包括至少一个句子成分的非核心文本片段的同义文本片段。具体地,可以基于短语共现,根据搜索结果,确定与非核心文本片段出现在同一搜索中的候选同义文本片段;确定候选同义文本片段与非核心文本片段同时出现的搜索次数;将搜索次数大于设定搜索次数阈值的候选同义文本片段作为非核心文本片段的同义文本片段。
为进一步提高同义文本片段的确定准确率,还可以结合用户对搜索结果中候选同义文本片段与非核心文本片段点击次数确定。例如,若对候选同义文本片段的点击次数与对非核心文本片段的点击次数相差较多,则降低候选同义文本片段作为同义文本片段的概率值,然后根据候选同义文本片段最后的概率值确定是否作为非核心文本片段的同义文本片段。
为进一步提高同义文本片段的确定准确率,还可以结合候选同义文本片段与非核心文本片段的词性和/或句式的相似度,进行同义文本片段的判断。
在确定非核心文本片段的同义文本片段的过程中,若结合有多个文本特征,则可以利用加权求和的方式确定候选同义文本片段作为同义文本片段的概率;根据概率确定同义文本片段。
S220、将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例。
本发明实施例的技术方案,通过基于包括词性、短语共现、用户点击和句式中的至少一种的文本特征,确定待扩展实例中非核心文本片段的同义文本片段,从而实现对具有丰富结构的同义文本的确定。
实施例三
图3是本发明实施例三提供的一种实例扩展方法的流程图。本实例在上述实施例的基础上提出的一种可选方案。参见图3,本实施例提供的实例扩展方法包括:
S310、确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段。
S320、将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成与所述待扩展实例句式不同的扩展实例。
可选地,若所述待扩展实例中包括至少一个非核心文本片段,则将每个非核心文本片段,或至少两个非核心文本片段中的一个非核心文本片段替换为句子结构不同(也即具有不同句子成分)的同义文本片段。从而生成与所述待扩展实例句式不同的扩展实例。
具体地,将所述待扩展实例中包括至少一个句子成分的非核心文本片段替换为所述非核心文本片段的同义文本片段,生成与所述待扩展实例句式不同的扩展实例包括:
确定所述待扩展实例中包括至少一个句子成分的非核心文本片段的句子成分和所述非核心文本片段的同义文本片段的句子成分;
若所述非核心文本片段的句子成分不同于所述非核心文本片段的同义文本片段的句子成分,则将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成与所述待扩展实例句式不同的扩展实例。
本发明实施例的技术方案,通过生成与所述待扩展实例句式不同的扩展实例,从而使得生成的扩展实例的句式均不同于待扩展实例,进而丰富扩展实例句式,提高扩展实例对序列标注模型训练的提升。
实施例四
图4a是本发明实施例四提供的一种实例扩展方法的流程图。本实例在上述实施例的基础上提出的一种可选方案。参见图4a,本实施例提供的实例扩展方法包括:
线下同义文本片段挖掘和线下实例扩展。
其中,参见图4b线下同义文本片段挖掘包括:
从大数据数据库中提取至少两个句子片段;
对提取的至少两个句子片段进行至少一种文本特征分析,其中文本特征包括词性、短语共现、用户点击和句式等中的至少一种;
将分析得到的至少一种文本特征输入预先训练的同义判断模型进行同义片段判定;
根据同义片段判定结果,确定上述至少两个句子片段是否同义,从而挖掘同义的句子片段。
线下实例扩展包括:
将用户标注的待扩展实例中的非核心文本片段替换为线下挖掘出的所述非核心文本片段的同义文本片段,从而扩展出新的实例。
本发明实施例的技术方案,通过将用户标注的少量待扩展实例中的非核心文本片段替换为线下挖掘出的所述非核心文本片段的同义文本片段,从而扩展出新的实例。因为是基于少量待扩展实例进行实例的自动扩展,从而降低用于生成实例的人力成本。只需要进行少量标注,即可生成大量扩展实例。
生成和扩展的句式丰富,可以生成出比标注更丰富的句式
同时,因为是对至少一个句子的非核心片段的替换,而不仅仅是对某个关键词的替换,所以经过替换生成的扩展实例的句式往往不同于待扩展实例。从而生成具有丰富句式的扩展实例。
需要说明的是,经过本实施例的技术教导,本领域技术人员有动机将上述实施例中描述的任一种实施方式进行方案的组合,以实现对实例进行丰富句式的扩展。
实施例五
图5是本发明实施例五提供的一种实例扩展装置的结构示意图。参见图5,本实施例提供的实例扩展装置包括:同义文本确定模块10和扩展实例生成模块20.
其中,同义文本确定模块10,用于确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段;
扩展实例生成模块20,用于将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例。
本发明实施例的技术方案,通过将待扩展实例中包括至少一个句子的非核心片段替换为所述非核心片段的同义文本,生成扩展实例。
因为是对至少一个句子的非核心片段的替换,而不仅仅是对某个关键词的替换,所以经过替换生成的扩展实例的句式往往不同于待扩展实例。
又因为是对非核心片段的替换,所以经过替换生成的扩展实例不会发生转义。从而生成具有丰富句式,且没有发生转义的扩展实例。
进一步地,扩展实例生成模块包括:扩展实例生成单元。
其中,扩展实例生成单元,用于将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成与所述待扩展实例句式不同的扩展实例。
进一步地,所述的装置,还包括:同义文本筛选模块。
其中,同义文本筛选模块,用于在将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例之前,基于所述非核心文本片段在所述待扩展实例中的上文和/或下文,对所述同义文本进行筛选。
进一步地,同义文本确定模块包括:成分同义确定单元和成分同义组合单元。
其中,成分同义确定单元,用于确定待扩展实例的包括至少一个句子成分的非核心文本片段中每个句子成分的成分同义文本片段;
成分同义组合单元,用于将每个句子成分的成分同义文本片段组合,生成同义文本片段;
进一步地,同义文本确定模块包括:多成分同义确定单元和多成分同义组合单元。
其中,多成分同义确定单元,用于确定待扩展实例中包括至少一个句子成分的非核心片段中至少两个句子成分的多成分同义文本片段;
多成分同义组合单元,用于将至少一个所述多成分同义文本组合,生成同义文本片段。
进一步地,同义文本确定模块包括:同义文本确定单元。
其中,同义文本确定单元,用于基于文本特征确定待扩展实例中非核心文本片段的同义文本片段,其中所述文本特征包括词性、短语共现、用户点击和句式中的至少一种。
实施例六
图6为本发明实施例六提供的一种设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性设备12的框图。图6显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的实例扩展方法,该方法包括:
确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段;
将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例。
实施例七
本发明实施例七还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的实例扩展方法,该方法包括:确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段;
将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种实例扩展方法,其特征在于,包括:
确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段;
将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例。
2.根据权利要求1所述的方法,其特征在于,将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例包括:
将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成与所述待扩展实例句式不同的扩展实例。
3.根据权利要求1所述的方法,其特征在于,在将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例之前,还包括:
基于所述非核心文本片段在所述待扩展实例中的上文和/或下文,对所述同义文本片段进行筛选。
4.根据权利要求1所述的方法,其特征在于,确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段包括:
确定待扩展实例中包括至少一个句子成分的非核心文本片段中每个句子成分的成分同义文本片段;
将每个句子成分的成分同义文本片段组合,生成同义文本片段。
5.根据权利要求1所述的方法,其特征在于,确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段包括:
确定待扩展实例中包括至少一个句子成分的非核心片段中至少两个句子成分的多成分同义文本片段;
将至少一个所述多成分同义文本组合,生成同义文本片段。
6.根据权利要求1所述的方法,其特征在于,确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段包括:
基于文本特征确定待扩展实例中非核心文本片段的同义文本片段,其中所述文本特征包括词性、短语共现、用户点击和句式中的至少一种。
7.一种实例扩展装置,其特征在于,包括:
同义文本确定模块,用于确定待扩展实例中包括至少一个句子成分的非核心文本片段的同义文本片段;
扩展实例生成模块,用于将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例。
8.根据权利要求7所述的装置,其特征在于,扩展实例生成模块包括:
扩展实例生成单元,用于将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成与所述待扩展实例句式不同的扩展实例。
9.根据权利要求7所述的装置,其特征在于,还包括:
同义文本筛选模块,用于在将所述待扩展实例中的所述非核心文本片段替换为所述非核心文本片段的同义文本片段,生成扩展实例之前,基于所述非核心文本片段在所述待扩展实例中的上文和/或下文,对所述同义文本片段进行筛选。
10.根据权利要求7所述的装置,其特征在于,同义文本确定模块包括:
同义文本确定单元,用于基于文本特征确定待扩展实例中非核心文本片段的同义文本片段,其中所述文本特征包括词性、短语共现、用户点击和句式中的至少一种。
11.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的实例扩展方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的实例扩展方法。
CN201810712921.9A 2018-06-29 2018-06-29 一种实例扩展方法、装置、设备和介质 Active CN108932218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810712921.9A CN108932218B (zh) 2018-06-29 2018-06-29 一种实例扩展方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810712921.9A CN108932218B (zh) 2018-06-29 2018-06-29 一种实例扩展方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN108932218A true CN108932218A (zh) 2018-12-04
CN108932218B CN108932218B (zh) 2022-09-30

Family

ID=64447252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810712921.9A Active CN108932218B (zh) 2018-06-29 2018-06-29 一种实例扩展方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN108932218B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918627A (zh) * 2019-01-08 2019-06-21 平安科技(深圳)有限公司 文本生成方法、装置、电子设备及存储介质
CN110309280A (zh) * 2019-05-27 2019-10-08 重庆小雨点小额贷款有限公司 一种语料扩容方法及相关设备
CN110489528A (zh) * 2019-08-14 2019-11-22 掌阅科技股份有限公司 基于电子书内容的电子词典重构方法及计算设备
CN111241124A (zh) * 2020-01-07 2020-06-05 百度在线网络技术(北京)有限公司 一种需求模型构建方法、装置、电子设备和介质
CN112015866A (zh) * 2020-08-28 2020-12-01 北京百度网讯科技有限公司 用于生成同义文本的方法、装置、电子设备及存储介质
CN112597748A (zh) * 2020-12-18 2021-04-02 深圳赛安特技术服务有限公司 语料生成方法、装置、设备及计算机可读存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182066B1 (en) * 1997-11-26 2001-01-30 International Business Machines Corp. Category processing of query topics and electronic document content topics
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
CN101878476A (zh) * 2007-06-22 2010-11-03 谷歌公司 用于查询扩展的机器翻译
CN102483757A (zh) * 2009-08-21 2012-05-30 米科·韦内宁 用于数据搜索和语言翻译的方法和装置
CN102999625A (zh) * 2012-12-05 2013-03-27 北京海量融通软件技术有限公司 一种检索请求语义扩展方法
CN103106282A (zh) * 2013-02-27 2013-05-15 王义东 一种网页搜索与展示的方法
US8819000B1 (en) * 2011-05-03 2014-08-26 Google Inc. Query modification
CN105095222A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 单元词替换方法、搜索方法及装置
US20160004766A1 (en) * 2006-10-10 2016-01-07 Abbyy Infopoisk Llc Search technology using synonims and paraphrasing
CN107329964A (zh) * 2017-04-19 2017-11-07 阿里巴巴集团控股有限公司 一种文本处理方法及装置
CN107491556A (zh) * 2017-09-04 2017-12-19 湖北地信科技集团股份有限公司 时空全要素语义查询服务系统及其方法
CN107665218A (zh) * 2016-07-29 2018-02-06 北京搜狗科技发展有限公司 一种搜索方法、装置及电子设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182066B1 (en) * 1997-11-26 2001-01-30 International Business Machines Corp. Category processing of query topics and electronic document content topics
US20160004766A1 (en) * 2006-10-10 2016-01-07 Abbyy Infopoisk Llc Search technology using synonims and paraphrasing
CN101878476A (zh) * 2007-06-22 2010-11-03 谷歌公司 用于查询扩展的机器翻译
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
CN102483757A (zh) * 2009-08-21 2012-05-30 米科·韦内宁 用于数据搜索和语言翻译的方法和装置
US8819000B1 (en) * 2011-05-03 2014-08-26 Google Inc. Query modification
CN102999625A (zh) * 2012-12-05 2013-03-27 北京海量融通软件技术有限公司 一种检索请求语义扩展方法
CN103106282A (zh) * 2013-02-27 2013-05-15 王义东 一种网页搜索与展示的方法
CN105095222A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 单元词替换方法、搜索方法及装置
CN107665218A (zh) * 2016-07-29 2018-02-06 北京搜狗科技发展有限公司 一种搜索方法、装置及电子设备
CN107329964A (zh) * 2017-04-19 2017-11-07 阿里巴巴集团控股有限公司 一种文本处理方法及装置
CN107491556A (zh) * 2017-09-04 2017-12-19 湖北地信科技集团股份有限公司 时空全要素语义查询服务系统及其方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918627A (zh) * 2019-01-08 2019-06-21 平安科技(深圳)有限公司 文本生成方法、装置、电子设备及存储介质
CN109918627B (zh) * 2019-01-08 2024-03-19 平安科技(深圳)有限公司 文本生成方法、装置、电子设备及存储介质
CN110309280A (zh) * 2019-05-27 2019-10-08 重庆小雨点小额贷款有限公司 一种语料扩容方法及相关设备
CN110309280B (zh) * 2019-05-27 2021-11-09 重庆小雨点小额贷款有限公司 一种语料扩容方法及相关设备
CN110489528A (zh) * 2019-08-14 2019-11-22 掌阅科技股份有限公司 基于电子书内容的电子词典重构方法及计算设备
CN110489528B (zh) * 2019-08-14 2022-05-17 掌阅科技股份有限公司 基于电子书内容的电子词典重构方法及计算设备
CN111241124A (zh) * 2020-01-07 2020-06-05 百度在线网络技术(北京)有限公司 一种需求模型构建方法、装置、电子设备和介质
CN111241124B (zh) * 2020-01-07 2023-10-03 百度在线网络技术(北京)有限公司 一种需求模型构建方法、装置、电子设备和介质
CN112015866A (zh) * 2020-08-28 2020-12-01 北京百度网讯科技有限公司 用于生成同义文本的方法、装置、电子设备及存储介质
CN112015866B (zh) * 2020-08-28 2023-07-21 北京百度网讯科技有限公司 用于生成同义文本的方法、装置、电子设备及存储介质
CN112597748A (zh) * 2020-12-18 2021-04-02 深圳赛安特技术服务有限公司 语料生成方法、装置、设备及计算机可读存储介质
CN112597748B (zh) * 2020-12-18 2023-08-11 深圳赛安特技术服务有限公司 语料生成方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN108932218B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
US11269965B2 (en) Extractive query-focused multi-document summarization
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN108932218A (zh) 一种实例扩展方法、装置、设备和介质
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
FI125823B (en) A measure of the quality of machine translation
US10831800B2 (en) Query expansion
WO2016127677A1 (zh) 地址结构化方法及装置
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
WO2022218186A1 (zh) 个性化知识图谱的生成方法、装置及计算机设备
US20120158742A1 (en) Managing documents using weighted prevalence data for statements
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
CN112036162A (zh) 文本纠错的适配方法、装置、电子设备及存储介质
US20190163781A1 (en) Learning user synonyms from sequenced query sessions
US10049108B2 (en) Identification and translation of idioms
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
US10354013B2 (en) Dynamic translation of idioms
CN109063184A (zh) 多语言新闻文本聚类方法、存储介质及终端设备
JP2022510818A (ja) 改良されたデータマッチングのためのデータレコードの字訳
US11074402B1 (en) Linguistically consistent document annotation
CN110362688B (zh) 试题标注方法、装置、设备及计算机可读存储介质
CN112417860A (zh) 训练样本增强方法、系统、设备及存储介质
US11531822B1 (en) Training models and using the trained models to indicate staleness of content items
US11842165B2 (en) Context-based image tag translation
US10055401B2 (en) Identification and processing of idioms in an electronic environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant