CN108287820A - 一种文本表示的生成方法及装置 - Google Patents

一种文本表示的生成方法及装置 Download PDF

Info

Publication number
CN108287820A
CN108287820A CN201810032221.5A CN201810032221A CN108287820A CN 108287820 A CN108287820 A CN 108287820A CN 201810032221 A CN201810032221 A CN 201810032221A CN 108287820 A CN108287820 A CN 108287820A
Authority
CN
China
Prior art keywords
vector
pending
character
text
hidden
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810032221.5A
Other languages
English (en)
Other versions
CN108287820B (zh
Inventor
蒋宏飞
赵红红
晋耀红
杨凯程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Science and Technology (Beijing) Co., Ltd.
Original Assignee
Beijing Shenzhou Taiyue Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenzhou Taiyue Software Co Ltd filed Critical Beijing Shenzhou Taiyue Software Co Ltd
Priority to CN201810032221.5A priority Critical patent/CN108287820B/zh
Publication of CN108287820A publication Critical patent/CN108287820A/zh
Application granted granted Critical
Publication of CN108287820B publication Critical patent/CN108287820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种文本表示生成方法,所述方法使用前一个待处理字符的隐向量和当前待处理字符的字向量、句法结构向量、词性标记向量、位置标记向量生成所述当前待处理字符的隐向量,并按照此方法逐字地生成所述待处理文本中所有待处理字符的隐向量,并将最后一个待处理字符的隐向量作为所述待处理文本的文本表示,能够较为全面的包括所述待处理文本的特征信息,并且,本申请提供的方法仅需要对待处理文本进行分字处理,而不需要进行分词处理,由于分字处理出错的可能极小,汉字的个数有限,因此,本申请提供的方法避免了因分词错误和低频词词向量缺失而带来的根源性错误,而且减少了存储资源的占用。

Description

一种文本表示的生成方法及装置
技术领域
本申请涉及自然语言处理领域,特别涉及一种文本表示的方法及装置。
背景技术
文本表示,也可以称为语言表示,是对人类语言的一种描述或约定。在人工智能里,文本表示主要是指用对人类语言进行形式化或者数学化的描述,以便在计算机中表示人类语言,并能让计算机程序自动处理人类语言。例如,词向量就是一种文本表示,具体是用向量的形式来表示一个词。
在人工智能领域,Encoder-Decoder模型(编码-解码模型)越来越被广泛使用,比如被用于翻译系统或者问答系统。图1为一种使用序列到序列的自然语言对话系统的架构示意图,如图1所示,Encoder-Decoder模型包括编码器和解码器,它的作业流程通常包括编码器获取输入信息,根据获得的输入信息生成隐状态向量,并将隐状态向量发送给解码器,解码器将接收到的隐状态向量转化成输出信息,其中,编码器在获取客户端输入的文本内容后,首先将客户端输入文本内容转化成对应的文本表示,再使用所述文本表示进行后续处理。
传统的文本表示生成方法包括将待处理文本内容进行分词处理,得到多个字段,所述字段可以是单独的一个字,也可以是由多个字组成的词,再根据分词处理得到的字段生成的词向量,生成的词向量就是所述分词处理得到的字段的文本表示。
传统的文本表示生成方法中通常只标记字段的词向量,因此,传统的文本表示生成方法无法包含该字段的其它属性信息。此外,由于现有分词处理的技术尚不成熟,分词处理结果的正确率难以保证,导致传统的文本表示生成方法可能在输入文本信息时就发生根源性的错误。而且,由于用多个字组成的词的数量庞大,难以形成全覆盖的数据库,不常用词经常被遗漏,因此,一旦待处理文本内容中出现不常用词就会导致文本表示中有信息丢失。
发明内容
本申请提供一种文本表示的生成方法,以解决由于分词不当造成的文本表示根源性错误,以及传统文本表示方法得到的文本表示存在特征信息缺失和特征信息遗漏的问题。
所述文本表示的生成方法包括:
获取待处理文本,所述待处理文本包括至少两个待处理字符;生成第i个待处理字符对应的第i总向量,所述第i总向量由第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,i=1,2,……,n,n为所述待处理文本中待处理字符的个数;使用所述第i总向量和第(i-1)隐向量生成所述第i个待处理字符对应的第i隐向量,其中,第0隐向量为预设隐向量;如果i=n,则生成待处理文本的文本表示,所述待处理文本的文本表示为第n个待处理字符对应的第n隐向量。
本申请提供的方法是基于深度神经网络模型的自然语言对话系统的文本表示生成方法,该方法不使用词向量,而是使用字向量,不仅避免了由于分词错误导致的文本表示根源性错误,而且由于汉字的个数远小于词的个数,所以字向量占用的数据库资源少,不会遗漏用户输入待处理文本的特征信息,而且,该方法不仅考虑了字向量还考虑了句法结构向量、词性结构向量和位置向量,因此用本申请提供的方法生成的文本表示能够反映出用户输入待处理文本的全部特征信息。
在一种可实现的方式中,在所述生成第i个待处理字符对应的第i总向量之前,所述方法还包括:
获取第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量。
在一种可实现的方式中,所述获取第i个待处理字符的句法结构向量包括:获取所述待处理文本的句法树,所述句法树包括所述待处理文本中各个待处理字段的句法结构向量,每个所述待处理字段由至少一个待处理字符组成;从所述句法树中选取第i个待处理字符所属待处理字段的句法结构向量作为所述第i个待处理字符的句法结构向量。
在一种可实现的方式中,所述获取第i个待处理字符的词性标记向量包括:获取所述待处理文本中各个待处理字段的词性;获取第i个待处理字符所属待处理字段的词性作为所述第i个待处理字符的词性;根据所述第i个待处理字符的词性获取所述第i个待处理字符的词性标记向量。
在一种可实现的方式中,所述方法还包括:获取训练语料中的文本,所述文本包括至少两个字符;生成第p个字符对应的第p总向量,所述第p总向量由第p个字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,p=1,2,……,m,m为所述训练语料中的文本中字符的个数;使用所述第p总向量和第(p-1)隐向量生成第p个字符的第p隐向量,其中,第0隐向量为预设隐向量;如果p=m,则生成训练语料中的文本对应的文本表示,所述训练语料中的文本对应的文本表示为使用所述第m模拟总向量和第(m-1)隐向量生成的第m个字符的第m模拟总向量;使用所述第m模拟总向量获取生成字符在预设词表中的序号;使用所述字符在所述预设词表中的序号以及所述生成字符在所述预设词表中的序号获取所述文本表示的误差;根据所述误差通过反向传播更新所述方法使用的参数。
本申请还提供一种文本表示生成装置,所述装置包括:文本获取模块,用于获取待处理文本,所述待处理文本包括至少两个待处理字符;总向量生成模块,用于生成第i个待处理字符对应的第i总向量,所述第i总向量由第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,i=1,2,……,n,n为所述待处理文本中待处理字符的个数;隐向量生成模块,用于使用所述第i总向量和第(i-1)隐向量生成第i个待处理字符的第i隐向量,其中,第0隐向量为预设隐向量;隐向量生成模块,还用于生成待处理文本的文本表示,所述待处理文本的文本表示为第n个待处理字符对应的第n隐向量。
在一种可实现的方式中,所述文本表示生成装置还包括:子向量获取模块,用于在所述生成第i个待处理字符对应的第i总向量之前,获取第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量。
在一种可实现的方式中,所述子向量获取模块包括:句法树获取单元,用于获取所述待处理文本的句法树,所述句法树包括所述待处理文本中各个待处理字段的句法结构向量,每个所述待处理字段由至少一个待处理字符组成;句法结构向量获取单元,用于从所述句法树中选取第i个待处理字符所属待处理字段的句法结构向量作为所述第i个待处理字符的句法结构向量。
在一种可实现的方式中,所述子向量获取模块包括:字段词性获取单元,用于获取所述待处理文本中各个待处理字段的词性;字符词性获取单元,用于获取第i个待处理字符所属待处理字段的词性作为所述第i个待处理字符的词性;词性标记向量获取单元,用于根据所述第i个待处理字符的词性获取所述第i个待处理字符的词性标记向量。
本申请还提供一种存储设备,所述存储设备存储有多条指令,所述指令用于由处理器加载并执行:获取待处理文本,所述待处理文本包括至少两个待处理字符;生成第i个待处理字符对应的第i总向量,所述第i总向量由第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,i=1,2,……,n,n为所述待处理文本中待处理字符的个数;使用所述第i总向量和第(i-1)隐向量生成所述第i个待处理字符对应的第i隐向量,其中,第0隐向量为预设隐向量;如果i=n,则生成待处理文本的文本表示,所述待处理文本的文本表示为第n个待处理字符对应的第n隐向量。
附图说明
图1为一种使用序列到序列的自然语言对话系统的架构示意图;
图2为本申请提供的一种可实现的文本表示生成方法的流程示意图;
图3为本申请提供的获取待处理字符的句法结构向量的流程示意图;
图4为本申请提供的文本“姚明的身高是多少”对应的句法树;
图5为本申请提供的一种可实现的获取待处理字符词性标记向量的流程示意图;
图6为本申请提供的模型训练阶段的流程示意图;
图7为本申请提供的所述文本表示生成装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明的保护范围。
本申请的方案基于深度神经网络模型的自然语言对话系统。所述基于深度神经网络模型的自然语言对话系统是利用seq to seq(sequence to sequence,序列到序列)的学习模型在经过大规模的对话语料训练得到的自然语言对话系统。
结合图1,所述基于深度神经网格模型的自然语言对话系统包括编码器和解码器,其中,编码器(Encoder)对用户输入的待处理文本进行处理获得对应的文本表示,再使用所述文本表示生成隐状态向量,所述编码器再将所述隐状态向量发送给解码器,解码器(Decoder)接收由所述编码器发送来的隐状态向量,再使用所述隐状态向量依次生成生成词,再顺次连接所述生成词构成答案。
通常,编码器在对用户输入的待处理文本生成对应的文本表示时,首先对用户输入的问题进行分词处理,获得多个词,所述词包括至少一个字符,再使用所述词对应的词向量生成所述待处理文本对应的文本表示。由于汉语中词语的数量非常庞大,因此,难以建立完整的词向量数据库,不常用词语的词向量经常被遗漏,而且,新词层出不穷,这些新词对应的词向量很难在其诞生的同时就将其词向量收入到词向量数据库中,这就导致一旦待处理文本内容中出现不常用词或者新词就会导致文本表示中有信息丢失。
此外,所述基于深度神经网络模型的自然语言对话系统提供的词向量数据全部源自于训练阶段累积的词典,如果用户输入的待处理文本与训练阶段使用的语料相关度小,或者模型训练不充分时,所建立的词向量数据库则很容易遗漏由待处理文本进行分词处理得到的词语对应的词向量,从而导致所述待处理文本对应的文本表示会遗漏所述待处理文本的特征信息,进而导致所述提供的答案的准确度和真实性则降低,具体表现为答非所问或者答案信息不准确。
再者,由于现有分词处理的技术尚不成熟,分词处理结果的正确率难以保证,导致传统的文本表示生成方法可能在输入文本信息时就发生根源性的错误。例如:用户输入的文本为“姚明身高是多少?”在被分词处理后得到的结果是“姚明”、“身”、“高是”、“多”、“少”“?”,而正确的分词结果应该是“姚明”、“身高”、“是”、“多少”、“?”。这就导致,由于分词结果本身的错误,无论构建的模型多么完善,得到的文本表示必然不能表示待处理文本的特征信息。
本申请提供的方法是基于深度神经网络模型的自然语言对话系统的文本表示生成方法,该方法不使用词向量,而是使用字向量,不仅避免了由于分词错误导致的文本表示根源性错误,而且由于汉字的个数远小于词的个数,所以字向量占用的数据库资源少,不会遗漏用户输入待处理文本的特征信息,而且,该方法不仅考虑了字向量还考虑了句法结构向量、词性结构向量和位置向量,因此用本申请提供的方法生成的文本表示能够反映出用户输入待处理文本的全部特征信息。
在本申请中,编码器对所述待处理文本进行分字处理,在上一例子中,所述待处理文本被分字处理成:“姚”、“明”、“的”、“身”、“高”、“是”、“多”、“少”、“?”,将待处理文本进行分字处理得到多个待处理字符,再使用所述待处理字符对应的字向量结合所述待处理字符的句法结构向量、词性标记向量和位置标记向量来生成所述待处理文本的文本表示,能够完整地表征出待处理文本的全部特征信息,而不会有遗漏。
本申请提供的文本表示的生成方法用于seq to seq学习模型中Encoder对用户输入的待处理文本生成对应的文本表示。图2为本申请提供的一种可实现的文本表示生成方法的流程示意图,结合图2,所述方法包括:
S110,获取待处理文本,所述待处理文本包括至少两个待处理字符。
S120,生成第i个待处理字符对应的第i总向量,所述第i总向量由第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,i=1,2,……,n,n为所述待处理文本中待处理字符的个数。
在本申请中,拼接所述第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量可以按照所述顺序顺次拼接,也可以按照其它顺序进行拼接,但是,在同一个模型中,只能按照同一种顺序进行拼接。例如,预设拼接顺序为字向量-句法结构向量-词性标记向量-位置标记向量,则无论在模型训练阶段还是在模型使用阶段,都需要按照这个顺序来拼接这些向量。
在本申请中,所述拼接可以为将所有所述向量简单地拼合在一起。例如,字向量为(0.1,0.2),句法结构向量为(0.3,0.4),词性标记向量为(0.5,0.6),位置标记向量为(1),则按照字向量-句法结构向量-词性标记向量-位置标记向量的顺序拼接所述向量得到的总向量为(0.1,0.2,0.3,0.4,0.5,0.6,1)。
在一种可能的实现方式中,各个字符的字向量、句法结构向量和词性标记向量可以是相同的也可以是不同的。可选地,各个字符的字向量、句法结构向量和词性标记向量可以随着模型训练的不断进行,通过反向传播而不断的被更新,直至模型训练阶段结束,在模型训练阶段最后一次训练后,通过反向传播更新后的字向量作为各个待处理字符的字向量、句法结构向量和词性标记向量。
在本申请中,所述位置标记向量为根据所述字符在所述问题或者所述文本中的位置对所述字符进行标记。例如:第1个待处理字符标记为1,第2个待处理字符标记为2等。
在本发明的一个实施例中,在所述生成第i个待处理字符对应的第i总向量之前,所述方法还包括:
获取第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量。
具体的,图3为本申请提供的获取待处理字符的句法结构向量的流程示意图,结合图3,在一种可实现的方式中,获取第i个待处理字符的句法结构向量包括:包括:
S1211,句法分析器获取所述待处理文本的句法树,所述句法树包括所述待处理文本中各个字段的句法结构向量。
在一种可实现的方式中,所述待处理文本包括至少一个待处理字段,每个所述待处理字段由至少一个所述待处理字符组成。
在本申请中,所述句法分析器用于生成句法树并获取所述待处理字符的句法结构向量。例如,图4为本申请提供的文本“姚明的身高是多少”对应的句法树,结合图4,如果所述待处理文本为“姚明的身高是多少?”,则,所述句法分析器生成的句法树如图4所示。
S1212,句法分析器从所述句法树中选取第i个待处理字符所属待处理字段的句法结构向量作为第i个待处理字符的句法结构向量。
在一种可实现的方式中,所述第i个待处理字符的句法结构向量为所述第i个待处理字符所属待处理字段的句法结构向量。例如,在上例的句法树中,各个句法结构的序号为:ROOT-0,IP-1,NP-2,DNP-3,NR-4,DEG-5,NN-6,VP-7,VC-8,QP-9,CD-10,待处理字段“姚明”对应的句法结构为ROOT-IP-NP-DNP-NP-NR,所以待处理字段“姚明”对应的句法结构向量为所述句法结构对应的序号拼接起来的向量,即,(0,1,2,3,2,4),其中的待处理字符“姚”和待处理字符“明”对应的句法结构向量也均为(0,1,2,3,2,4);同理,待处理字段“的”的句法结构为ROOT-IP-NP-DNP-DEG,因此,待处理字段“的”的句法结构向量为(0,1,2,3,5),其余待处理字段的以及待处理字符的句法结构向量同理可得。在本例中,第1个待处理字符“姚”字的句法结构向量与其所属的待处理字段“姚明”的句法结构向量相同,为(0,1,2,3,2,4)。
图5为本申请提供的一种可实现的获取待处理字符词性标记向量的流程示意图,请结合图5,在一种可实现的方式中,获取第i个待处理字符的词性标记向量包括:
S1221,词性标记工具获取所述待处理文本中各个待处理字段的词性。
在本申请中,所述词性标记工具首先获取所述待处理文本中的所有待处理字段,并且生成所述待处理字段的词性。
S1222,词性标记工具获取所述第i个待处理字符所属待处理字段的词性作为所述第i个待处理字符的词性。
例如,所述待处理文本为“姚明的身高是多少?”,其中待处理字段“姚明”的词性为名词,则,待处理字符“姚”和待处理字符“明”的词性与所属的待处理字段的词性相同,均为名词。
S1223,词性标记工具根据所述第i个待处理字符的词性获取所述第i个待处理字符的词性标记向量。
在本申请中,所述待处理字符的词性标记向量为所述待处理字符的词性对应的词性标记向量。例如,名词的词性标记向量为(0.1,0.2),动词的词性标记向量为(0.3,0.4),在上一例中,待处理字符“姚”的词性为名词,则待处理字符“姚”对应的词性标记向量为(0.1,0.2)。
S130,使用所述第i总向量和第(i-1)隐向量生成第i个待处理字符的第i隐向量,其中,第0隐向量为预设隐向量。
在一种可能的实现方式中,所述第0隐向量的数值可以随着训练的不断进行根据反向传播而不断被更新,直至模型训练阶段结束,在模型训练阶段最后一次训练后,通过反向传播更新后的预设隐向量作为S120中第1个待处理字符的第0隐向量。
在一种可实现的方式中,使用所述第1总向量和第0隐向量生成第1个待处理字符的第1隐向量可以使用现有技术中任意一种使用词向量和隐向量生成隐向量的方法,如RNN(Recurrent neural Network,循环神经网络)等。
在一种可实现的方式中,从所述待处理文本的第2个待处理字符开始,使用第i总向量和第(i-1)隐向量按照类似第1个待处理字符的处理方法依次逐字地获取每个待处理字符的第i隐向量,直至所述待处理文本中的最后一个待处理字符。
S140,如果i=n,则生成待处理文本的文本表示,所述待处理文本的文本表示为第n个待处理字符对应的第n隐向量。
具体地,使用所述第n总向量和第(n-1)隐向量按照步骤S130所述的方法生成所述待处理文本的文本表示。
本申请使用前一个待处理字符的隐向量和当前待处理字符的字向量、句法结构得、词性标记向量、位置标记向量生成所述当前待处理字符的隐向量,并按照此方法逐字地生成所述待处理文本中所有待处理字符的隐向量,并将最后一个待处理字符的隐向量作为所述待处理文本的文本表示,能够较为全面的包括所述待处理文本的特征信息,并且,本申请提供的方法仅需要对待处理文本进行分字处理,而不需要进行分词处理,由于分字处理出错的可能极小,因此,本申请提供的方法避免了因分词错误而带来的根源性错误,又由于汉字的个数有限,因此,本申请提供的方法一方面存储字向量的占用的资源少,另一方面也不会出现低频词词向量缺失的问题。
在一种可实现的方式中,对于只有一个待处理字符的文本,本申请以第1隐向量作为待处理文本的文本表示,所述第1隐向量由第1总向量和第0隐向量按照步骤S130所述的方法生成。
在一种可实现的方式中,本申请在生成对待处理文本的文本表示之前,即在获取待处理文本之前还包括模型训练阶段,所述模型训练阶段主要用于确定模型中各个计算模块的参数,也就是所述方法中使用的参数,所述参数包括预设隐向量和字向量。图6为本申请模型训练阶段的流程示意图,请结合图6,具体地,所述模型训练阶段包括:
S210,获取训练语料中的文本,所述文本包括至少两个字符。可选地,在模型训练阶段首先要获取训练语料,所述训练语料可以来自特定领域的数据信息,还可以从互联网上抓取。
S220,生成第p个字符对应的第p总向量,所述第p总向量由第p个字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,p=1,2,……,m,m为所述训练语料中的文本中字符的个数。
本步骤的具体实现方式可以参见本申请步骤S120。
在一种可实现的方式中,在首次进行模型训练时,每个字符的字向量可以是相同的也可以是不同的,可以是编码器随机生成的,也可以是根据经验而人为设定的,也可以是使用例如wrod2vec等方法获得的。随着模型训练的不断进行,每个字符的字向量都会通过反向传播而不断的被更新,直至模型训练阶段结束,在模型训练阶段最后一次训练后,通过反向传播更新后的字向量作为模型使用阶段的字向量。
同样地,在一种可实现的方式中,在首次进行模型训练时,每个字符的句法结构向量和词性标记向量可以是相同的也可以是不同的,可以是编码器随机生成的,也可以是根据经验而人为设定的,其中,所述词性标记向量还可以是使用wrod2vec的方法获得的。随着模型训练的不断进行,每个字符的句法结构向量和词性标记向量都会通过反向传播而不断的被更新,直至模型训练阶段结束,在模型训练阶段最后一次训练后,通过反向传播更新后的句法结构向量和词性标记向量作为模型使用阶段的句法结构向量和词性标记向量。
在一种可实现的方式中,所述位置标记向量为根据所述字符在所述训练语料中的文本中的位置对所述字符进行标记。例如:第1个字符标记为1,第2个字符标记为2等。
S230,使用所述第p总向量和第(p-1)隐向量生成第p个字符的第p隐向量,其中,第0隐向量为预设隐向量。
本步骤的具体实现方式可以参见本申请步骤S130。
需要说明的是,在一种可实现的方式中,在首次进行模型训练时,所述预设隐向量可以为编码器随机生成的,也可以为根据经验而人为预设的。所述预设隐向量用于开启所述模型训练阶段,它的数值随着训练的不断进行根据反向传播而不断被更新,直至模型训练阶段结束,在模型训练阶段最后一次训练后,通过反向传播更新后的预设隐向量作为模型使用阶段的第0隐向量。
S240,如果p=m,则生成训练语料中的文本对应的文本表示,所述训练语料中的文本对应的文本表示为使用所述第m模拟总向量和第(m-1)隐向量生成的第m个字符的第m模拟总向量。
在本申请中,本步骤的具体实现方式可以参见本申请步骤S140,在此不再赘述。
S250,使用所述第m模拟总向量获取生成字符在预设词表中的序号。
在一种可实现的方式中,所述文本表示的误差可以用所述文本中所述字符在预设词表中的序号与生成字符在预设词表中序号之间的误差表示。请结合图1,例如,用于训练的文本为“姚明身高”,编码器在获取所述文本后,查询到所述文本中每个字符在预设词表中的序号依次为“X1,X2,X3,X4”,使用例如seq2seq的编码器利用本申请所述方法得到所述文本表示,即,第m模拟总向量,继而对所述文本表示进行解码,生成至少一个生成字符,所述生成词的个数与所述文本的字符数相等,进一步地,得到所述生成字符在预设词表中的序号,依次为“Y1,Y2,Y3,Y4”。
S260,使用所述字符在所述预设词表中的序号以及所述生成字符在所述预设词表中的序号获取所述文本表示的误差。
在上一示例中,用“Y1,Y2,Y3,Y4”与“X1,X2,X3,X4”的误差表示所述文本表示的误差。
在本申请中,获取所述文本表示的误差的方法可以使用现有技术中任意一种计算向量误差的方法,如根据交叉熵计算所述文本表示的误差。
S270,根据所述误差通过反向传播更新所述模型中的参数,即,更新所述文本表示生成方法中的参数。
在本申请中,通过更新所述模型中的参数来优化模型,降低文本表示的误差。
本申请还提供一种文本表示生成装置,图7为所述文本表示生成装置的结构示意图,结合图7,所述文本表示生成装置包括:文本获取模块101,总向量生成模块102,隐向量生成模块103,其中,
文本获取模块101,用于获取待处理文本,所述待处理文本包括至少两个待处理字符;
总向量生成模块102,用于生成第i个待处理字符对应的第i总向量,所述第i总向量由第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,i=1,2,……,n,n为所述待处理文本中待处理字符的个数。
隐向量生成模块103,用于使用所述第i总向量和第(i-1)隐向量生成所述第i个待处理字符对应的第i隐向量,其中,第0隐向量为预设隐向量。
隐向量生成模块103,还用于生成待处理文本的文本表示,所述待处理文本的文本表示为第n个待处理字符对应的第n隐向量。
在一种可实现的方式中,所述文本表示生成装置还包括:
子向量获取模块104,用于在所述生成第i个待处理字符对应的第i总向量之前,获取第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量。
可选地,所述子向量获取模块104包括:
句法树获取单元,用于获取所述待处理文本的句法树,所述句法树包括所述待处理文本中各个待处理字段的句法结构向量,每个所述待处理字段由至少一个待处理字符组成;
句法结构向量获取单元,用于从所述句法树中选取第i个待处理字符所属待处理字段的句法结构向量作为所述第i个待处理字符的句法结构向量。
可选地,所述子向量获取模块104还包括:
字段词性获取单元,用于获取所述待处理文本中各个待处理字段的词性;
字符词性获取单元,用于获取第i个待处理字符所属待处理字段的词性作为所述第i个待处理字符的词性;
词性标记向量获取单元,用于根据所述第i个待处理字符的词性获取所述第i个待处理字符的词性标记向量。
在一种可实现的方式中,所述文本获取模块还用于获取训练语料中的文本,所述文本包括至少两个字符。
所述总向量生成模块还用于生成第p个字符对应的第p总向量,所述第p总向量由第p个字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,p=1,2,……,m,m为所述训练语料中的文本中字符的个数。
所述隐向量生成模块还用于使用所述第p总向量和第(p-1)隐向量生成第p个字符的第p隐向量,其中,第0隐向量为预设隐向量。
所述隐向量生成模块还用于生成训练语料中的文本对应的文本表示,所述训练语料中的文本对应的文本表示为使用所述第m模拟总向量和第(m-1)隐向量生成的第m个字符的第m模拟总向量。
在一种可实现的方式中,所述装置还包括:
误差获取模块,用于获取所述文本表示的误差;
参数更新模块,用于根据所述误差通过反向传播更新所述模型中的参数。
本发明实施例还提供一种存储设备,所述存储设备存储有多条指令,所述指令用于由处理器加载并执行:
获取待处理文本,所述待处理文本包括至少两个待处理字符;
生成第i个待处理字符对应的第i总向量,所述第i总向量由第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,i=1,2,……,n,n为所述待处理文本中待处理字符的个数;
使用所述第i总向量和第(i-1)隐向量生成所述第i个待处理字符对应的第i隐向量,其中,第0隐向量为预设隐向量;
如果i=n,则生成待处理文本的文本表示,所述待处理文本的文本表示为第n个待处理字符对应的第n隐向量。
本发明实施例还提供一种移动终端,包括上述存储设备和处理器,其中所述处理器用于执行所述存储设备中的各条指令。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims (10)

1.一种文本表示的生成方法,其特征在于,包括:
获取待处理文本,所述待处理文本包括至少两个待处理字符;
生成第i个待处理字符对应的第i总向量,所述第i总向量由第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,i=1,2,……,n,n为所述待处理文本中待处理字符的个数;
使用所述第i总向量和第(i-1)隐向量生成所述第i个待处理字符对应的第i隐向量,其中,第0隐向量为预设隐向量;
如果i=n,则生成待处理文本的文本表示,所述待处理文本的文本表示为第n个待处理字符对应的第n隐向量。
2.根据权利要求1所述的方法,其特征在于,在所述生成第i个待处理字符对应的第i总向量之前,所述方法还包括:
获取第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量。
3.根据权利要求2所述的方法,其特征在于,所述获取第i个待处理字符的句法结构向量包括:
获取所述待处理文本的句法树,所述句法树包括所述待处理文本中各个待处理字段的句法结构向量,每个所述待处理字段由至少一个待处理字符组成;
从所述句法树中选取第i个待处理字符所属待处理字段的句法结构向量作为所述第i个待处理字符的句法结构向量。
4.根据权利要求2所述的方法,其特征在于,所述获取第i个待处理字符的词性标记向量包括:
获取所述待处理文本中各个待处理字段的词性;
获取第i个待处理字符所属待处理字段的词性作为所述第i个待处理字符的词性;
根据所述第i个待处理字符的词性获取所述第i个待处理字符的词性标记向量。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法在获取待处理文本之前还包括:
获取训练语料中的文本,所述文本包括至少两个字符;
生成第p个字符对应的第p总向量,所述第p总向量由第p个字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,p=1,2,……,m,m为所述训练语料中的文本中字符的个数;
使用所述第p总向量和第(p-1)隐向量生成第p个字符的第p隐向量,其中,第0隐向量为预设隐向量;
如果p=m,则生成训练语料中的文本对应的文本表示,所述训练语料中的文本对应的文本表示为使用所述第m模拟总向量和第(m-1)隐向量生成的第m个字符的第m模拟总向量;
使用所述第m模拟总向量获取生成字符在预设词表中的序号;
使用所述字符在所述预设词表中的序号以及所述生成字符在所述预设词表中的序号获取所述文本表示的误差;
根据所述误差通过反向传播更新所述方法使用的参数。
6.一种文本表示生成装置,其特征在于,所述装置包括:
文本获取模块,用于获取待处理文本,所述待处理文本包括至少两个待处理字符;
总向量生成模块,用于生成第i个待处理字符对应的第i总向量,所述第i总向量由第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,i=1,2,……,n,n为所述待处理文本中待处理字符的个数;
隐向量生成模块,用于使用所述第i总向量和第(i-1)隐向量生成第i个待处理字符的第i隐向量,其中,第0隐向量为预设隐向量;
隐向量生成模块,还用于生成待处理文本的文本表示,所述待处理文本的文本表示为第n个待处理字符对应的第n隐向量。
7.根据权利要求6所述的装置,其特征在于,所述文本表示生成装置还包括:
子向量获取模块,用于在所述生成第i个待处理字符对应的第i总向量之前,获取第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量。
8.根据权利要求7所述的装置,其特征在于,所述子向量获取模块包括:
句法树获取单元,用于获取所述待处理文本的句法树,所述句法树包括所述待处理文本中各个待处理字段的句法结构向量,每个所述待处理字段由至少一个待处理字符组成;
句法结构向量获取单元,用于从所述句法树中选取第i个待处理字符所属待处理字段的句法结构向量作为所述第i个待处理字符的句法结构向量。
9.根据权利要求7所述的装置,其特征在于,所述子向量获取模块包括:
字段词性获取单元,用于获取所述待处理文本中各个待处理字段的词性;
字符词性获取单元,用于获取第i个待处理字符所属待处理字段的词性作为所述第i个待处理字符的词性;
词性标记向量获取单元,用于根据所述第i个待处理字符的词性获取所述第i个待处理字符的词性标记向量。
10.一种存储设备,其特征在于,所述存储设备存储有多条指令,所述指令用于由处理器加载并执行:
获取待处理文本,所述待处理文本包括至少两个待处理字符;
生成第i个待处理字符对应的第i总向量,所述第i总向量由第i个待处理字符的字向量、句法结构向量、词性标记向量和位置标记向量拼接而成,其中,i=1,2,……,n,n为所述待处理文本中待处理字符的个数;
使用所述第i总向量和第(i-1)隐向量生成所述第i个待处理字符对应的第i隐向量,其中,第0隐向量为预设隐向量;
如果i=n,则生成待处理文本的文本表示,所述待处理文本的文本表示为第n个待处理字符对应的第n隐向量。
CN201810032221.5A 2018-01-12 2018-01-12 一种文本表示的生成方法及装置 Active CN108287820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810032221.5A CN108287820B (zh) 2018-01-12 2018-01-12 一种文本表示的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810032221.5A CN108287820B (zh) 2018-01-12 2018-01-12 一种文本表示的生成方法及装置

Publications (2)

Publication Number Publication Date
CN108287820A true CN108287820A (zh) 2018-07-17
CN108287820B CN108287820B (zh) 2021-06-11

Family

ID=62835370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810032221.5A Active CN108287820B (zh) 2018-01-12 2018-01-12 一种文本表示的生成方法及装置

Country Status (1)

Country Link
CN (1) CN108287820B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800435A (zh) * 2019-01-29 2019-05-24 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN109815482A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 一种新闻交互的方法、装置、设备和计算机存储介质
CN109902309A (zh) * 2018-12-17 2019-06-18 北京百度网讯科技有限公司 翻译方法、装置、设备和存储介质
CN110348012A (zh) * 2019-07-01 2019-10-18 北京明略软件系统有限公司 确定目标字符的方法、装置、存储介质及电子装置
CN110427330A (zh) * 2019-08-13 2019-11-08 腾讯科技(深圳)有限公司 一种代码分析的方法以及相关装置
CN111178046A (zh) * 2019-12-16 2020-05-19 山东众阳健康科技集团有限公司 一种基于排序的字向量训练方法
CN111581335A (zh) * 2020-05-14 2020-08-25 腾讯科技(深圳)有限公司 一种文本表示方法及装置
CN112287699A (zh) * 2020-12-29 2021-01-29 南京新一代人工智能研究院有限公司 一种基于句法树遍历的信息融合翻译方法
CN112417092A (zh) * 2020-11-11 2021-02-26 南京邮电大学 基于深度学习的智能化文本自动生成系统及其实现方法
CN112699348A (zh) * 2020-12-25 2021-04-23 中国平安人寿保险股份有限公司 核身信息校验的方法、装置、计算机设备及存储介质
CN113191140A (zh) * 2021-07-01 2021-07-30 北京世纪好未来教育科技有限公司 文本处理方法、装置、电子设备及存储介质
WO2023035787A1 (zh) * 2021-09-07 2023-03-16 浙江传媒学院 一种基于文本字符特征的文本数据归属描述及生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160247061A1 (en) * 2015-02-19 2016-08-25 Digital Reasoning Systems, Inc. Systems and Methods for Neural Language Modeling
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107451115A (zh) * 2017-07-11 2017-12-08 中国科学院自动化研究所 端到端的汉语韵律层级结构预测模型的构建方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160247061A1 (en) * 2015-02-19 2016-08-25 Digital Reasoning Systems, Inc. Systems and Methods for Neural Language Modeling
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107451115A (zh) * 2017-07-11 2017-12-08 中国科学院自动化研究所 端到端的汉语韵律层级结构预测模型的构建方法及系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815482A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 一种新闻交互的方法、装置、设备和计算机存储介质
CN109902309A (zh) * 2018-12-17 2019-06-18 北京百度网讯科技有限公司 翻译方法、装置、设备和存储介质
CN109800435A (zh) * 2019-01-29 2019-05-24 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN110348012B (zh) * 2019-07-01 2022-12-09 北京明略软件系统有限公司 确定目标字符的方法、装置、存储介质及电子装置
CN110348012A (zh) * 2019-07-01 2019-10-18 北京明略软件系统有限公司 确定目标字符的方法、装置、存储介质及电子装置
CN110427330A (zh) * 2019-08-13 2019-11-08 腾讯科技(深圳)有限公司 一种代码分析的方法以及相关装置
CN110427330B (zh) * 2019-08-13 2023-09-26 腾讯科技(深圳)有限公司 一种代码分析的方法以及相关装置
CN111178046A (zh) * 2019-12-16 2020-05-19 山东众阳健康科技集团有限公司 一种基于排序的字向量训练方法
CN111581335A (zh) * 2020-05-14 2020-08-25 腾讯科技(深圳)有限公司 一种文本表示方法及装置
CN111581335B (zh) * 2020-05-14 2023-11-24 腾讯科技(深圳)有限公司 一种文本表示方法及装置
CN112417092A (zh) * 2020-11-11 2021-02-26 南京邮电大学 基于深度学习的智能化文本自动生成系统及其实现方法
CN112699348A (zh) * 2020-12-25 2021-04-23 中国平安人寿保险股份有限公司 核身信息校验的方法、装置、计算机设备及存储介质
CN112287699A (zh) * 2020-12-29 2021-01-29 南京新一代人工智能研究院有限公司 一种基于句法树遍历的信息融合翻译方法
CN113191140A (zh) * 2021-07-01 2021-07-30 北京世纪好未来教育科技有限公司 文本处理方法、装置、电子设备及存储介质
WO2023035787A1 (zh) * 2021-09-07 2023-03-16 浙江传媒学院 一种基于文本字符特征的文本数据归属描述及生成方法

Also Published As

Publication number Publication date
CN108287820B (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN108287820A (zh) 一种文本表示的生成方法及装置
CN110737758B (zh) 用于生成模型的方法和装置
US9753914B2 (en) Natural expression processing method, processing and response method, device, and system
CN113962315A (zh) 模型预训练方法、装置、设备、存储介质以及程序产品
CN107680580A (zh) 文本转换模型训练方法和装置、文本转换方法和装置
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN107705784A (zh) 文本正则化模型训练方法和装置、文本正则化方法和装置
CN111223498A (zh) 情绪智能识别方法、装置及计算机可读存储介质
CN109670180B (zh) 向量化译员的翻译个性特征的方法及装置
CN110797010A (zh) 基于人工智能的问答评分方法、装置、设备及存储介质
EP4109324A2 (en) Method and apparatus for identifying noise samples, electronic device, and storage medium
CN117077792B (zh) 一种基于知识图谱生成提示数据的方法及装置
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
KR20210059995A (ko) 학습 기반의 외국어 말하기 평가 방법 및 그 시스템
CN110232191A (zh) 自动文本查错方法
CN114168743A (zh) 基于知识图谱的网络防御意图识别解析方法、设备及介质
CN113326367A (zh) 基于端到端文本生成的任务型对话方法和系统
CN110442693B (zh) 基于人工智能的回复消息生成方法、装置、服务器及介质
CN117421403A (zh) 智能对话方法、装置及电子设备
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
CN114330375A (zh) 一种基于固定范式的术语翻译方法及系统
CN110147556B (zh) 一种多向神经网络翻译系统的构建方法
CN110955768B (zh) 一种基于句法分析的问答系统答案生成方法
CN108197276B (zh) 基于会话的公众情感转移分布建模方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190904

Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant after: China Science and Technology (Beijing) Co., Ltd.

Address before: Room 601, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: Beijing Shenzhou Taiyue Software Co., Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Applicant after: Dingfu Intelligent Technology Co., Ltd

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

GR01 Patent grant
GR01 Patent grant