CN108460017A - 语料泛化方法、装置、电子设备及可读存储介质 - Google Patents

语料泛化方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN108460017A
CN108460017A CN201810165781.8A CN201810165781A CN108460017A CN 108460017 A CN108460017 A CN 108460017A CN 201810165781 A CN201810165781 A CN 201810165781A CN 108460017 A CN108460017 A CN 108460017A
Authority
CN
China
Prior art keywords
language material
extensive
group partial
partial node
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810165781.8A
Other languages
English (en)
Other versions
CN108460017B (zh
Inventor
王武生
石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810165781.8A priority Critical patent/CN108460017B/zh
Publication of CN108460017A publication Critical patent/CN108460017A/zh
Application granted granted Critical
Publication of CN108460017B publication Critical patent/CN108460017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种语料泛化方法、装置、电子设备及可读存储介质,通过接收用户输入的初始语料,将初始语料切分为语料组分;合并相同的语料组分,形成多个语料组分节点;根据每个初始语料中各语料组分的连接顺序,在多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;遍历转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。从而实现了基于已有的语料组分之间转移关系泛化生成大量的衍生语料,且该泛化的语料是基于初始语料的语料组分转移顺序生成的,符合人们的自然语言表达,增加了用于模型训练的语料数量,提升了语料质量,使得采用该泛化后的语料训练出的模型的识别效果得以提升。

Description

语料泛化方法、装置、电子设备及可读存储介质
技术领域
本发明涉及数据处理技术,尤其涉及一种语料泛化方法、装置、电子设备及可读存储介质。
背景技术
随着人工智能的兴起,数据驱动的机器学习和深度学习方法得到了广泛的研究和应用。在以上这些方法的研究和应用过程中,需要充足且高质量的数据作为支撑进行模型训练和效果评估。
现有技术中对于诸如搜索引擎、智能语音等交互产品,其为了能够更为准确地识别用户意图,需要建立用于识别用户意图的模型,而模型的识别能力很大程度是取决于用于训练该模型的数据的数量。用于训练模型的数据越多,通常来说模型的识别准确度会越高。用于这些产品的训练数据通常包括用户的查询(Query),如搜索引擎中用户输入的检索词,智能语音交互产品中用户的表述话语,上述这种自然语言表述的Query被称之为语料。
然而,一方面,对于一些偏僻冷门的行业和领域,往往很难积累相关的语料;另一方面,一些网站其用户访问量很少,很难累计语料。因此,由于领域偏僻或用户访问量低等因素,造成在对语料应用机器学习或者深度学习模型的时候,经常会遇到语料不够充足的问题,从而影响模型的识别效果。
发明内容
为解决现有技术中存在的问题,本发明提供一种语料泛化方法、装置、电子设备及可读存储介质,可以基于已有的语料泛化生成大量的衍生语料,从而增加用于模型训练的语料数量,使得训练后的模型的识别效果得以提升。
第一方面,本发明实施例提供一种语料泛化方法,包括:
接收用户输入的初始语料,将所述初始语料切分为语料组分;
合并相同的语料组分,形成多个语料组分节点;
根据每个初始语料中各语料组分的连接顺序,在所述多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;
遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。
可选地,所述在所述多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径之后,还包括:
在所述多个语料组分节点中标识出每个所述初始语料的起始语料组分节点,和/或,终止语料组分节点。
可选的,所述遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料,包括:
以每个所述起始语料组分节点作为起始点,遍历所有路径可达语料组分,形成所述泛化后的语料;
或者,以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料;
或者,以每个所述起始语料组分节点作为起始点,以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料。
可选的,所述遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料之后,还包括:
基于句式结构转换关系,建立语言模型;
将所述泛化后的语料输入到所述语言模型中,确定各个泛化后得到的语料符合所述句式结构的概率;
根据所述概率对泛化后的语料进行筛选。
可选的,所述方法还包括:
根据语料的应用场景,判断所述泛化后的语料的语义;
根据语义与所述应用场景的匹配程度,对所述泛化后的语料进行筛选。
可选的,所述方法还包括:
确定所述泛化后的语料中所包含的语料组分节点的个数,根据预设节点数量阈值,对所述泛化后的语料进行筛选。
可选的,所述语料组分的组分粒度包括以下粒度中的至少一种:单个汉字、单个字符、单个单词、短语。
可选的,所述方法还包括:
以每个语料组分节点作为原始语料组分节点,根据所述原始语料组分节点的词性属性对其进行衍生,得到与所述原始语料组分节点具有关联性的衍生语料组分节点;其中所述词性属性包括以下属性中的至少一种:同义词、反义词、数量词、人称代词。
可选的,所述得到与所述原始语料组分节点具有关联性的衍生语料组分节点之后,还包括:
根据每个所述原始语料组分节点的转移路径,确定与所述原始语料组分节点对应的衍生语料组分节点的转移路径。
可选的,所述遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料,包括:
遍历由所述原始语料组分节点和所述衍生语料组分节点形成的转移路径,形成泛化后的语料。
第二方面,本发明实施例提供一种语料泛化装置,包括:
接收模块,用于接收用户输入的初始语料;
切分模块,用于将所述初始语料切分为语料组分;
合并模块,用于合并相同的语料组分,形成多个语料组分节点;
确定模块,用于根据每个初始语料中各语料组分的连接顺序,在所述多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;
形成模块,用于遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。
可选的,还包括:
标识模块,用于在所述多个语料组分节点中标识出每个所述初始语料的起始语料组分节点,和/或,终止语料组分节点。
可选的,所述形成模块,包括:
第一形成子模块,用于以每个所述起始语料组分节点作为起始点,遍历所有路径可达语料组分,形成所述泛化后的语料;
第二形成子模块,用于以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料;
第三形成子模块,用于以每个所述起始语料组分节点作为起始点,以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料。
可选的,还包括:
模型建立模块,用于基于句式结构转换关系,建立语言模型;
所述确定模块,还用于将所述泛化后的语料输入到所述语言模型中,确定各个泛化后得到的语料符合所述句式结构的概率;
第一筛选模块,用于根据所述概率对泛化后的语料进行筛选。
可选的,还包括:
判断模块,用于根据语料的应用场景,判断所述泛化后的语料的语义;
第二筛选模块,用于根据语义与所述应用场景的匹配程度,对所述泛化后的语料进行筛选。
可选的,所述确定模块,还用于确定所述泛化后的语料中所包含的语料组分节点的个数;
所述装置还包括:
第三筛选模块,用于根据预设节点数量阈值,对所述泛化后的语料进行筛选。
可选的,所述语料组分的组分粒度包括以下粒度中的至少一种:单个汉字、单个字符、单个单词、短语。
可选的,还包括:
衍生模块,用于以每个语料组分节点作为原始语料组分节点,根据所述原始语料组分节点的词性属性对其进行衍生,得到与所述原始语料组分节点具有关联性的衍生语料组分节点;其中所述词性属性包括以下属性中的至少一种:同义词、反义词、数量词、人称代词。
可选的,所述确定模块,还用于根据每个所述原始语料组分节点的转移路径,确定与所述原始语料组分节点对应的衍生语料组分节点的转移路径。
可选的,所述形成模块包括:
第四形成子模块,用于遍历由所述原始语料组分节点和所述衍生语料组分节点形成的转移路径,形成泛化后的语料。
第三方面,本发明实施例提供一种电子设备,包括:
处理器;存储器;以及程序;其中,所述程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述程序包括用于执行如第一方面所述的方法的指令。
第四方面,本发明实施例提供一种电子设备可读存储介质,所述电子设备可读存储介质存储有程序,所述程序使得电子设备执行第一方面所述的方法。
本发明提供的语料泛化方法、装置、电子设备及可读存储介质,通过接收用户输入的初始语料,将初始语料切分为语料组分;合并相同的语料组分,形成多个语料组分节点;根据每个初始语料中各语料组分的连接顺序,在多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;遍历转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。从而实现了基于已有的语料组分之间转移关系泛化生成大量的衍生语料,且该泛化的语料是基于初始语料的语料组分转移顺序生成的,符合人们的自然语言表达,增加了用于模型训练的语料数量,提升了语料质量,使得采用该泛化后的语料训练出的模型的识别效果得以提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为应用本发明实施例提供的语料泛化方法的系统架构示意图;
图2a为一示例性实施例示出的本发明语料泛化方法的流程图;
图2b为图2a所示实施例中语料组分节点示意图;
图2c为图2a所示实施例中语料组分转移路径的示意图;
图3a为另一示例性实施例示出的本发明语料泛化方法的流程图;
图3b为图3a所示实施例中语料组分转移路径的示意图;
图4a为另一示例性实施例示出的本发明语料泛化方法的流程图;
图4b为图4a所示实施例中语料组分转移路径的示意图;
图5为一示例性实施例示出的本发明语料泛化装置的结构示意图;
图6为另一示例性实施例示出的本发明语料泛化装置的结构示意图;
图7a为一示例性实施例示出的本发明电子设备的结构示意图;
图7b为另一示例性实施例示出的本发明电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1为应用本发明实施例提供的语料泛化方法的系统架构示意图,如图 1所示,该系统架构中可以包括终端设备101、102或103、服务器104。其中,终端设备101、102或103可以为支持信息通信的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等。服务器104可以包括一台或多台用于执行运算、分析、存储等功能的服务器,服务器104 接收用户通过终端设备101、102或103发送的搜索查询信息作为初始语料,并基于本发明的语料泛化方法生成大量的语料,采用泛化出的语料训练用于提供搜索查询结果的查询模型,使得该查询模型可以向用户的终端设备101、 102或103反馈更为精准的搜索查询结果。
需要进行说明的是,本发明实施例中所提供的语料泛化方法可以由图1 中所示的服务器104来执行。另外,值得注意的是,上述图1中所示的终端设备、网络和服务器的数量和类型仅作为示意,在实际应用中,根据实现的需要,可以具有任意数量和类型的终端设备、网络和服务器。
下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
在图1所示的系统架构示意图的基础上,图2a为一示例性实施例示出的本发明语料泛化方法的流程图。本发明实施例提供了一种语料泛化方法,该方法可以由任意执行语料泛化方法的装置来执行,该装置可以通过软件和 /或硬件实现。本实施例中,该装置可以集成在服务器104中。如图2所示,本实施例的方法可以包括:
步骤201、接收用户输入的初始语料。
在本实施例中,服务器可以接收用户通过终端设备输入的初始语料,该初始语料包括:如搜索引擎中用户输入的检索词,智能语音交互产品中用户的表述话语等。服务器可以从用户的日志文件中挖掘并提取出上述的初始语料。
步骤202、将初始语料切分为语料组分。
在本实施例中,可以采用现有技术中的分词工具对初始语料进行切分,其中,切分的粒度包括以下粒度中的至少一种:单个汉字、单个字符、单个单词、短语。例如,用户输入的原始语料为“给我唱一首歌曲”,若以单个汉字作为切分粒度,“给我唱一首歌曲”的初始语料将被切分为7个语料组分“给”、“我”、“唱”“一”“首”“歌”“曲”;若以单个汉字以及短语作为切分的粒度要求,则可能切分为“给”、“我”、“唱”“一首”“歌曲”的5个语料组分。若初始语料中包含单词或字符,则可以以单个单词、单个字符等切分粒度进行切分,例如,“howare you”则可以切分为“how”、“are”、“you”的3个语料组分。需要说明的是,语料组分被切分的粒度大小对后续泛化出的语料的数量是有一定影响的,通常来说,粒度越小泛化后得到的语料数量越多,但是并非粒度越小泛化后的语料的质量越好,也就是说,可能由于粒度过小造成泛化后的语料的语义不准确,因此,语料组分粒度的确定既需要考虑语料数量的因素,也需要考虑泛化后语料的语义质量的因素。
步骤203、合并相同的语料组分,形成多个语料组分节点。
在本实施例中,用户输入的初始语料中会存在完全重复的语料,并且非重复的语料被切分后,各个语料组分间也会存在完全重复的词语,因此,可以将完全相同的语料组分进行合并,使得每个语料组分都是独一无二的。例如,用户输入的初始语料1为“给我唱首歌”,初始语料2为“唱一首歌”则以单个汉字作为切分语料组分的粒度,切分后得到初始语料1的各个语料组分为“给”、“我”、“唱”、“首”、“歌”;切分后得到初始语料2 的各个语料组分为“唱”、“一”、“首”、“歌”;将两个初始语料切分后相同的语料组分合并,即将“唱”、“首”、“歌”进行合并,形成图2b 所示的语料组分节点示意图中的各个语料组分节点,其中,图2b中的圆圈圈住的语料组分形成各个语料组分节点。
步骤204、根据每个初始语料中各语料组分的连接顺序,在多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径。
在本实施例中,基于图2b的各个语料组分节点,若在各个语料组分节点之间进行连线,则可以生成非常多种的连接关系,例如,将“一”、“唱”、“歌”相互连接,则可能形成“一唱歌”或“唱歌一”等语料,但是对于连接后所形成的语料其语义可能并不通顺。因此,需要根据每个初始语料中各语料组分的连接顺序,将各个语料组分节点连接起来,形成语料组分之间的转移路径。如图2c语料组分转移路径的示意图所示,图2c中的箭头将各个语料组分节点以箭头指向顺序相连接。所谓转移路径就是各个语料组分节点根据箭头所示方向所能相互连接形成的路径,例如,根据图2c可以获得初始语料1的转移路径“给”→“我”→“唱”→“首”→“歌”;还可以获得初始语料2的转移路径“唱”→“一”→“首”→“歌”。
步骤205、遍历转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。
在本实施例中,基于图2c所示的转移路径的示意图,可以获得沿箭头方向转移的多种语料组分的组合,除了组合为初始语料1和初始语料2,还可以组合为,“一”→“首”→“歌”;“唱”→“首”→“歌”;“给”→“我”→“唱”→“一”→“首”→“歌”等,因此,通过遍历图2c所示的转移路径,建立路径可达的语料组分之间的转移关系,所谓路径可达就是语料组分节点之间存在连接关系,且沿连接的箭头方向转移的线路,例如,“给”→“一”→“首”→“歌”为路径不可达的语料组分的转移关系,因为在“给”和“一”两个语料组分节点之间不存在连接箭头。很显然,通过遍历该图2c 的转移路径示意图,可以获得比初始的2个语料更多的语料,从而泛化得到更多的语料。同时,因为该泛化是基于初始语料的语言顺序进行连接的,使得泛化得到的语料在通顺性、语义表达上与初始语料几乎无差,泛化后的语料的质量较好。
本发明实施例提供的语料泛化方法,通过接收用户输入的初始语料,将初始语料切分为语料组分;合并相同的语料组分,形成多个语料组分节点;根据每个初始语料中各语料组分的连接顺序,在多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;遍历转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。从而实现了基于已有的语料组分之间转移关系泛化生成大量的衍生语料,且该泛化的语料是基于初始语料的语料组分转移顺序生成的,符合人们的自然语言表达,增加了用于模型训练的语料数量,提升了语料质量,使得采用该泛化后的语料训练出的模型的识别效果得以提升。
图3a为另一示例性实施例示出的本发明语料泛化方法的流程图。在图2a 所示实施例的基础上,本实施例的语料泛化方法具体包括:
步骤301、接收用户输入的初始语料。
步骤302、将初始语料切分为语料组分。
其中,语料组分的组分粒度包括以下粒度中的至少一种:单个汉字、单个字符、单个单词、短语。
步骤303、合并相同的语料组分,形成多个语料组分节点。
步骤304、根据每个初始语料中各语料组分的连接顺序,在多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径。
步骤301-步骤304与步骤201-步骤204类似,此处不再赘述。
步骤305、在多个语料组分节点中标识出每个初始语料的起始语料组分节点,和/或,终止语料组分节点。
在本步骤中,采用标识“^”对初始语料1的起始语料组分节点“给”和初始语料2的起始语料组分节点“唱”进行标识;并采用标识“$”对初始语料1和初始语料2的终止语料节点“歌”进行标识,标识后的转移路径可以参考图3b所示的语料组分转移路径的示意图。通过对用户输入的初始语料进行首尾语料组分的标识,得到以如下步骤306a、步骤306b、步骤306c所示的三种转移路径遍历方式,这种通过部分指明泛化路径的走向的语料泛化方式,以更加贴近用户表达习惯的方式获取到更为精准的语料,从而提升泛化语料的质量,同时节省后续对大量泛化后语料进行筛选的处理资源。三种泛化方式具体如步骤306a、306b、306c所示:
步骤306a、以每个起始语料组分节点作为起始点,遍历所有路径可达语料组分,形成泛化后的语料。
例如,若以图3b中的“给”和“唱”作为起始点开始遍历,则可以获取到如“给我唱一首歌”、“给我唱首”、“给我”、“唱首歌”、“唱一首”等可能的泛化语料。
步骤306b、以每个终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成泛化后的语料。
例如,若以图3b中的“歌”作为终止点执行路径遍历,则可以获取到如“给我唱一首歌”、“唱首歌”、“一首歌”、“我唱一首歌”等可能的泛化语料。
步骤306c、以每个起始语料组分节点作为起始点,以每个终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成泛化后的语料。
例如,若以图3b中的“给”和“唱”作为起始点,并且以“歌”作为终止点进行遍历,则可以获取到除了初始语料1“给我唱首歌”和初始语料2 “唱一首歌”之外的“给我唱一首歌”和“唱首歌”两个额外的泛化语料。
可见,采用步骤306c根据首尾语料组分节点泛化得到的语料的数量要少于单独采用首或尾语料组分节点泛化得到的语料,但是根据初始语料所表达的用户意图(为用户唱首歌),不难发现基于首尾节点泛化出的“给我唱一首歌”和“唱首歌”都准确表达了用户的原始意图。这也说明了,在对转移路径进行遍历的过程中,制约路径走向的因素越多,其所泛化得到的语料的语义通常也越接近用户的原本意图。本领域技术人员可以基于路径的复杂程度,语料组分节点的数目以及路径遍历的计算能力等多重因素适应性地选择步骤306a、步骤306b、步骤306c中的方法进行语料泛化。
上述步骤306a、步骤306b、步骤306c可以单独执行或者以任意的顺序或组合执行,本发明对此不作具体的限定。可选的,对于泛化后的语料,其可能存在不符合语法规范或语义转变不再适用于初始语料的应用场景的情况。为了提升语料的质量,可以对其进行校验和筛选,具体方式可以包括:
步骤307a、基于句式结构转换关系,建立语言模型;将泛化后的语料输入到语言模型中,确定各个泛化后得到的语料符合句式结构的概率;根据概率对泛化后的语料进行筛选。
在本步骤中,可以基于不同语言的句式表达,如汉语中句子成分大致包含有主语、谓语、宾语、动语,定语、状语,补语和中心语。英语中句子成分大致包含有主语、谓语、宾语、表语、定语、状语、宾语补足语和同位语等;对采集得到的大量语料进行训练,此时的语料是用于训练句式结构的,因此,其不仅仅局限于步骤301中的初始语料,可以是从各种场景中采集得到的用户的习惯用语,基于这些习惯用语训练得到语言模型,将泛化后的语料输入到该训练好的语言模型中,判断输入的语料是否符合句式规范,以确定各个泛化后的语料其符合句式结构的概率,并根据概率大小对泛化后的语料进行筛选。
步骤307b、根据语料的应用场景,判断泛化后的语料的语义;根据语义与应用场景的匹配程度,对泛化后的语料进行筛选。
在本步骤中,根据语料的应用场景,例如,智能语音交互产品为通过人机交互向用户提供乐曲播放的设备,其应用场景应该与曲目的播放有关。因此,可以根据业务的范围以及产品边界确定语料与该应用场景的相似程度,例如,可以人为制定或根据初始语料确定一些标注类别,如“打开曲目”、“快进曲目”、“调大音量”等,则采用这些标注类别对泛化后的语料进行归类、划分,从而对不符合标注类别的语料进行筛选。
步骤307c、确定泛化后的语料中所包含的语料组分节点的个数,根据预设节点数量阈值,对泛化后的语料进行筛选。
在本步骤中,根据转移路径的复杂程度,可能会泛化出非常长的语料,这样的语料中由于断句位置的不同可能会产出出多种语义,则不利于用户意图识别;且过长的语料消耗机器识别的有限计算能力;通过设置节点数量阈值,该阈值可以包含最大值,还可以包含最小值,以获取最符合用户的习惯表达语料长度的泛化语料。
上述步骤307a、步骤307b、步骤307c可以单独执行或者以任意的顺序或组合执行,本发明对此不作具体的限定。
进一步地,除了根据初始语料确定出的各个语料组分节点,对语料进行泛化,还可以在形成图2b的各个语料组分节点的过程中,对语料组分进行语义扩展,以使语料组分节点的数目增多,进而使得图2c中形成的转移路径的路径分支增多。具体的,图4a为另一示例性实施例示出的本发明语料泛化方法的流程图,如图4a所示,在前述各个实施例的基础上,本实施例的语料泛化方法具体包括:
步骤401、接收用户输入的初始语料。
步骤402、将初始语料切分为语料组分。
步骤403、合并相同的语料组分,形成多个语料组分节点。
步骤401-步骤403与步骤301-步骤303类似,此处不再赘述。
步骤404、以每个语料组分节点作为原始语料组分节点,根据原始语料组分节点的词性属性对其进行衍生,得到与原始语料组分节点具有关联性的衍生语料组分节点。
其中词性属性包括以下属性中的至少一种:同义词、反义词、数量词、人称代词。
在本步骤中,通过同义词变换,反义词、数量词、人称代词等衍生的策略可以在同一个语料组分节点上衍生出更多的节点,从而实现语料数量的泛化。例如,如图4b所示的语料组分转移路径的示意图,对于图3b中的“我”节点,其可以衍生出“你”、“他”、“咱们”等多种表达;对于“一”节点,其可以衍生出“两”、“五”、“多”、“全部”等多种表达。则基于初始语料切分得到的语料组分节点为原始语料组分节点(如“我”、“一”等节点),基于词性属性衍生后的语料组分节点为衍生语料组分节点(如“你”、“他”、“咱们”,“两”、“五”、“多”、“全部”等节点)。
步骤405、根据每个初始语料中各原始语料组分的连接顺序,在多个原始语料组分节点中确定每个初始语料中各原始语料组分之间的转移路径。
步骤406、根据每个原始语料组分节点的转移路径,确定与原始语料组分节点对应的衍生语料组分节点的转移路径。
在本步骤中,衍生语料组分节点的转移路径与其所对应的原始语料组分节点的转移路径是相同的,如图4b所示,则基于原始语料组分节点的转移路径“给”→“我”→“唱”→“一”→“首”→“歌”可以衍生出“给”→“咱们”→“唱”→“五”→“首”→“歌”等多种泛化语料。
步骤407、遍历由原始语料组分节点和衍生语料组分节点形成转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。
图5为一示例性实施例示出的本发明语料泛化装置的结构示意图。该语料泛化装置可以为独立的服务器,也可以为集成在服务器中的装置,该装置可以通过软件、硬件或者软硬件结合的方式实现。如图5所示,该装置包括:
接收模块51,用于接收用户输入的初始语料。
切分模块52,用于将初始语料切分为语料组分。
合并模块53,用于合并相同的语料组分,形成多个语料组分节点。
确定模块54,用于根据每个初始语料中各语料组分的连接顺序,在多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径。
形成模块55,用于遍历转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。
本实施例提供的语料泛化装置,可以执行上述图2a所示的方法实施例,其实现原理和技术效果类似,在此不再赘述。
本实施例提供的语料泛化装置,通过接收用户输入的初始语料,将初始语料切分为语料组分;合并相同的语料组分,形成多个语料组分节点;根据每个初始语料中各语料组分的连接顺序,在多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;遍历转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。从而实现了基于已有的语料组分之间转移关系泛化生成大量的衍生语料,且该泛化的语料是基于初始语料的语料组分转移顺序生成的,符合人们的自然语言表达,增加了用于模型训练的语料数量,提升了语料质量,使得采用该泛化后的语料训练出的模型的识别效果得以提升。
图6为另一示例性实施例示出的本发明语料泛化装置的结构示意图。如图6所示,在上述实施例的基础上,本发明实施例提供的本发明语料泛化装置还包括:
标识模块56,用于在多个语料组分节点中标识出每个初始语料的起始语料组分节点,和/或,终止语料组分节点。
可选的,形成模块55,包括:
第一形成子模块551,用于以每个起始语料组分节点作为起始点,遍历所有路径可达语料组分,形成泛化后的语料。
第二形成子模块552,用于以每个终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成泛化后的语料。
第三形成子模块553,用于以每个起始语料组分节点作为起始点,以每个终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成泛化后的语料。
可选的,还包括:
模型建立模块57,用于基于句式结构转换关系,建立语言模型。
确定模块54,还用于将泛化后的语料输入到语言模型中,确定各个泛化后得到的语料符合句式结构的概率。
第一筛选模块58,用于根据概率对泛化后的语料进行筛选。
可选的,还包括:
判断模块59,用于根据语料的应用场景,判断泛化后的语料的语义。
第二筛选模块60,用于根据语义与应用场景的匹配程度,对泛化后的语料进行筛选。
可选的,确定模块54,还用于确定泛化后的语料中所包含的语料组分节点的个数。
还包括:
第三筛选模块61,用于根据预设节点数量阈值,对泛化后的语料进行筛选。
可选的,语料组分的组分粒度包括以下粒度中的至少一种:单个汉字、单个字符、单个单词、短语。
可选的,还包括:
衍生模块62,用于以每个语料组分节点作为原始语料组分节点,根据原始语料组分节点的词性属性对其进行衍生,得到与原始语料组分节点具有关联性的衍生语料组分节点;其中词性属性包括以下属性中的至少一种:同义词、反义词、数量词、人称代词。
可选的,确定模块54,还用于根据每个原始语料组分节点的转移路径,确定与原始语料组分节点对应的衍生语料组分节点的转移路径。
可选的,形成模块55包括:
第四形成子模块554,用于遍历由原始语料组分节点和衍生语料组分节点形成的转移路径,形成泛化后的语料。
本实施例提供的语料泛化装置,可以执行上述图3a和/或图4a所示的方法实施例,其实现原理和技术效果类似,在此不再赘述。
图7a为一示例性实施例示出的本发明电子设备的结构示意图。电子设备 700包括:处理单元702和通信单元703。处理单元702用于对电子设备700 的动作进行控制管理,例如,处理单元702用于支持电子设备700执行图2a 的步骤202-步骤205,处理单元702还可以用于支持电子设备700执行图3a 的步骤302-步骤(307a,307b,307c),处理单元702还可以用于支持电子设备700执行图4a的步骤402-步骤407,和/或用于本发明所描述的技术的其它过程。通信单元703用于电子设备700与其它网络实体的通信,例如与图1 中示出的终端设备之间的通信,还可以用于支持电子设备700执行图2a的步骤201、或者图3a的步骤301、或者图4a的步骤401。电子设备700还可以包括存储单元701,用于存储电子设备700的程序代码和数据。
其中,处理单元702可以是处理器或控制器,例如可以是CPU,通用处理器,数字信号处理器(DigitalSignalProcessor,DSP),专用集成电路 (Application-SpecificIntegratedCircuit,ASIC),现场可编程门阵列 (FieldProgrammableGateArray,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信单元703可以是通信接口、收发器、收发电路等,其中,通信接口是统称,可以包括一个或多个接口。存储单元701可以是存储器。
当处理单元702为处理器,通信单元703为通信接口,存储单元701为存储器时,本发明所涉及的电子设备可以为图7b所示的电子设备710。
参阅图7b所示,该电子设备710包括:处理器712、通信接口713、存储器711。可选的,电子设备710还可以包括总线714。其中,通信接口713、处理器712以及存储器711可以通过总线714相互连接;总线714可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。总线714 可以分为地址总线、数据总线、控制总线等。为便于表示,图7b中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
另外,存储器711中存储有程序,并且被配置为由处理器712执行,该程序包括用于执行如上任一实施例所述的方法的指令。
本发明实施例还提供一种电子设备可读存储介质,其中,电子设备可读存储介质存储有程序,程序使得服务器执行前述任一实施例提供的语料泛化装置。其中,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (22)

1.一种语料泛化方法,其特征在于,包括:
接收用户输入的初始语料,将所述初始语料切分为语料组分;
合并相同的语料组分,形成多个语料组分节点;
根据每个初始语料中各语料组分的连接顺序,在所述多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;
遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。
2.根据权利要求1所述的方法,其特征在于,所述在所述多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径之后,还包括:
在所述多个语料组分节点中标识出每个所述初始语料的起始语料组分节点,和/或,终止语料组分节点。
3.根据权利要求2所述的方法,其特征在于,所述遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料,包括:
以每个所述起始语料组分节点作为起始点,遍历所有路径可达语料组分,形成所述泛化后的语料;
或者,以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料;
或者,以每个所述起始语料组分节点作为起始点,以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料之后,还包括:
基于句式结构转换关系,建立语言模型;
将所述泛化后的语料输入到所述语言模型中,确定各个泛化后得到的语料符合所述句式结构的概率;
根据所述概率对泛化后的语料进行筛选。
5.根据权利要求1~3任一项所述的方法,其特征在于,所述方法还包括:
根据语料的应用场景,判断所述泛化后的语料的语义;
根据语义与所述应用场景的匹配程度,对所述泛化后的语料进行筛选。
6.根据权利要求1~3任一项所述的方法,其特征在于,所述方法还包括:
确定所述泛化后的语料中所包含的语料组分节点的个数,根据预设节点数量阈值,对所述泛化后的语料进行筛选。
7.根据权利要求1~3任一项所述的方法,其特征在于,所述语料组分的组分粒度包括以下粒度中的至少一种:单个汉字、单个字符、单个单词、短语。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
以每个语料组分节点作为原始语料组分节点,根据所述原始语料组分节点的词性属性对其进行衍生,得到与所述原始语料组分节点具有关联性的衍生语料组分节点;其中所述词性属性包括以下属性中的至少一种:同义词、反义词、数量词、人称代词。
9.根据权利要求8所述的方法,其特征在于,所述得到与所述原始语料组分节点具有关联性的衍生语料组分节点之后,还包括:
根据每个所述原始语料组分节点的转移路径,确定与所述原始语料组分节点对应的衍生语料组分节点的转移路径。
10.根据权利要求9所述的方法,其特征在于,所述遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料,包括:
遍历由所述原始语料组分节点和所述衍生语料组分节点形成的转移路径,形成泛化后的语料。
11.一种语料泛化装置,其特征在于,包括:
接收模块,用于接收用户输入的初始语料;
切分模块,用于将所述初始语料切分为语料组分;
合并模块,用于合并相同的语料组分,形成多个语料组分节点;
确定模块,用于根据每个初始语料中各语料组分的连接顺序,在所述多个语料组分节点中确定每个初始语料中各语料组分之间的转移路径;
形成模块,用于遍历所述转移路径,建立路径可达的语料组分之间的转移关系,形成泛化后的语料。
12.根据权利要求11所述的装置,其特征在于,还包括:
标识模块,用于在所述多个语料组分节点中标识出每个所述初始语料的起始语料组分节点,和/或,终止语料组分节点。
13.根据权利要求12所述的装置,其特征在于,所述形成模块,包括:
第一形成子模块,用于以每个所述起始语料组分节点作为起始点,遍历所有路径可达语料组分,形成所述泛化后的语料;
第二形成子模块,用于以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料;
第三形成子模块,用于以每个所述起始语料组分节点作为起始点,以每个所述终止语料组分节点作为终止点,遍历所有路径可达语料组分,形成所述泛化后的语料。
14.根据权利要求11~13任一项所述的装置,其特征在于,还包括:
模型建立模块,用于基于句式结构转换关系,建立语言模型;
所述确定模块,还用于将所述泛化后的语料输入到所述语言模型中,确定各个泛化后得到的语料符合所述句式结构的概率;
第一筛选模块,用于根据所述概率对泛化后的语料进行筛选。
15.根据权利要求11~13任一项所述的装置,其特征在于,还包括:
判断模块,用于根据语料的应用场景,判断所述泛化后的语料的语义;
第二筛选模块,用于根据语义与所述应用场景的匹配程度,对所述泛化后的语料进行筛选。
16.根据权利要求11~13任一项所述的装置,其特征在于,
所述确定模块,还用于确定所述泛化后的语料中所包含的语料组分节点的个数;
所述装置还包括:
第三筛选模块,用于根据预设节点数量阈值,对所述泛化后的语料进行筛选。
17.根据权利要求11~13任一项所述的装置,其特征在于,所述语料组分的组分粒度包括以下粒度中的至少一种:单个汉字、单个字符、单个单词、短语。
18.根据权利要求11所述的装置,其特征在于,还包括:
衍生模块,用于以每个语料组分节点作为原始语料组分节点,根据所述原始语料组分节点的词性属性对其进行衍生,得到与所述原始语料组分节点具有关联性的衍生语料组分节点;其中所述词性属性包括以下属性中的至少一种:同义词、反义词、数量词、人称代词。
19.根据权利要求18所述的装置,其特征在于,
所述确定模块,还用于根据每个所述原始语料组分节点的转移路径,确定与所述原始语料组分节点对应的衍生语料组分节点的转移路径。
20.根据权利要求19所述的装置,其特征在于,所述形成模块包括:
第四形成子模块,用于遍历由所述原始语料组分节点和所述衍生语料组分节点形成的转移路径,形成泛化后的语料。
21.一种电子设备,其特征在于,包括:处理器;存储器;以及程序;其中,所述程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述程序包括用于执行如权利要求1-10任一项所述的方法的指令。
22.一种电子设备可读存储介质,其特征在于,所述电子设备可读存储介质存储有程序,所述程序使得电子设备执行权利要求1-10任一项所述的方法。
CN201810165781.8A 2018-02-28 2018-02-28 语料泛化方法、装置、电子设备及可读存储介质 Active CN108460017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810165781.8A CN108460017B (zh) 2018-02-28 2018-02-28 语料泛化方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810165781.8A CN108460017B (zh) 2018-02-28 2018-02-28 语料泛化方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN108460017A true CN108460017A (zh) 2018-08-28
CN108460017B CN108460017B (zh) 2019-07-30

Family

ID=63216605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810165781.8A Active CN108460017B (zh) 2018-02-28 2018-02-28 语料泛化方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN108460017B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330285A (zh) * 2021-11-30 2022-04-12 腾讯科技(深圳)有限公司 语料处理方法、装置、电子设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6230128B1 (en) * 1993-03-31 2001-05-08 British Telecommunications Public Limited Company Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN101271450A (zh) * 2007-03-19 2008-09-24 株式会社东芝 裁剪语言模型的方法及装置
CN101866336A (zh) * 2009-04-14 2010-10-20 华为技术有限公司 获取评价单元、建立句法路径词典的方法、装置及系统
CN104346406A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 训练语料扩充装置和训练语料扩充方法
CN106294325A (zh) * 2016-08-11 2017-01-04 海信集团有限公司 自然语言生成语句的优化方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6230128B1 (en) * 1993-03-31 2001-05-08 British Telecommunications Public Limited Company Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links
CN101271450A (zh) * 2007-03-19 2008-09-24 株式会社东芝 裁剪语言模型的方法及装置
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN101866336A (zh) * 2009-04-14 2010-10-20 华为技术有限公司 获取评价单元、建立句法路径词典的方法、装置及系统
CN104346406A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 训练语料扩充装置和训练语料扩充方法
CN106294325A (zh) * 2016-08-11 2017-01-04 海信集团有限公司 自然语言生成语句的优化方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BECK_ZHOU: ""中文分词语言模型和动态规划"", 《CSDN博客HTTPS://BLOG.CSDN.BET/ZHOUBL668/ARTICLE/DETAILS/6896438》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330285A (zh) * 2021-11-30 2022-04-12 腾讯科技(深圳)有限公司 语料处理方法、装置、电子设备及计算机可读存储介质
CN114330285B (zh) * 2021-11-30 2024-04-16 腾讯科技(深圳)有限公司 语料处理方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN108460017B (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
US20180089572A1 (en) Hybrid approach for developing, optimizing, and executing conversational interaction applications
WO2022218186A1 (zh) 个性化知识图谱的生成方法、装置及计算机设备
JP4129987B2 (ja) テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム
CN111783468B (zh) 文本处理方法、装置、设备和介质
US10783877B2 (en) Word clustering and categorization
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN112836487B (zh) 一种自动评论方法、装置、计算机设备及存储介质
JP7008096B2 (ja) 関連付け関心点に基づく文推奨方法及び装置
CN110232112A (zh) 文章中关键词提取方法及装置
CN109858026A (zh) 文本情感分析方法、装置、计算机设备及存储介质
CN109800427B (zh) 一种分词方法、装置、终端及计算机可读存储介质
CN107291684A (zh) 语言文本的分词方法和系统
CN109710087A (zh) 输入法模型生成方法及装置
US11935315B2 (en) Document lineage management system
CN111078881A (zh) 细粒度情感分析方法、系统、电子设备和存储介质
CN113850080A (zh) 一种押韵词推荐方法、装置、设备及存储介质
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN116541517A (zh) 文本信息处理方法、装置、设备、软件程序以及存储介质
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN110020429A (zh) 语义识别方法及设备
CN108460017B (zh) 语料泛化方法、装置、电子设备及可读存储介质
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
Goh et al. Functional shortcuts in language co-occurrence networks
WO2023083176A1 (zh) 样本处理方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210520

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Patentee after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.