CN110717017A - 一种处理语料的方法 - Google Patents

一种处理语料的方法 Download PDF

Info

Publication number
CN110717017A
CN110717017A CN201910987149.6A CN201910987149A CN110717017A CN 110717017 A CN110717017 A CN 110717017A CN 201910987149 A CN201910987149 A CN 201910987149A CN 110717017 A CN110717017 A CN 110717017A
Authority
CN
China
Prior art keywords
text
target
semantic
recommended
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910987149.6A
Other languages
English (en)
Other versions
CN110717017B (zh
Inventor
胡隽雯
曹川�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910987149.6A priority Critical patent/CN110717017B/zh
Publication of CN110717017A publication Critical patent/CN110717017A/zh
Application granted granted Critical
Publication of CN110717017B publication Critical patent/CN110717017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种处理语料的方法,涉及人工智能领域,用于提高语义识别的准确性和有效性。所述方法包括:对需要进行语义识别的目标文本进行分词处理以获得目标文本包括的多个词语,并对每个词语进行词向量处理,以获得目标文本对应的词向量序列;将词向量序列输入预先训练的语义识别模型,以通过语义识别模型确定目标文本对应的目标语义特征;其中,语义识别模型是根据多个标注了语义标签的文本训练样本训练得到的,多个文本训练样本中包括第一类文本训练样本和第二类文本训练样本,第一类文本训练样本根据文本自身包括的语义关键词确定对应的语义标签,第二类文本训练样本根据文本关联的注释信息确定对应的语义标签。

Description

一种处理语料的方法
技术领域
本申请涉及人工智能技术领域,尤其涉及一种处理语料的方法。
背景技术
近年来,在越来越多的领域中融入了人工智能(Artificial Intelligence,AI)技术。在人机交互的过程中,人们希望计算机能够准确地理解人类的语言,以更好地帮助用户完成各种日常工作,因此人工智能中的自然语言处理(natural language processing,NLP)技术成为了近年来的研究热点。而在自然语言处理中,语义识别有着广泛地应用,例如在语音控制场景下,正确地理解用户说出的控制语音,能够准确地对设备进行控制,所以如何提高语义识别的准确性是值得思考的问题。
发明内容
本申请实施例提供一种处理语料的方法,用于提高语义识别的准确性。
一方面,提供一种处理语料的方法,所述方法包括:
确定需进行语义识别的目标文本;
对所述目标文本进行分词处理,以获得所述目标文本包括的多个词语;
对每个词语进行词向量处理,以获得所述目标文本对应的词向量序列;
将所述词向量序列输入预先训练的语义识别模型,以通过所述语义识别模型确定所述目标文本对应的目标语义特征;其中,所述语义识别模型是根据多个标注了语义标签的文本训练样本训练得到的,多个文本训练样本中包括第一类文本训练样本和第二类文本训练样本,所述第一类文本训练样本根据文本自身包括的语义关键词确定对应的语义标签,所述第二类文本训练样本根据文本关联的注释信息确定对应的语义标签。
一方面,提供一种处理语料的方法,所述方法包括:
根据第一预定操作,确定目标文本;
获得与所述目标文本对应的关联推荐文本,其中,所述关联推荐文本的语义特征与所述目标文本的语义特征满足预设关联关系;
输出所述关联推荐文本。
在一种可能的实现方式中,在获得与所述目标文本对应的关联推荐文本之前,所述方法还包括:
根据第二预定操作,从多个语料分类选项中确定目标语料分类选项,其中,每个语料分类选项用于从一个描述维度对文本进行描述;
则,获得与所述目标文本对应的关联推荐文本,包括:
获得与所述目标文本对应且符合所述目标语料分类选项的关联推荐文本。
在一种可能的实现方式中,所述多个语料分类选项包括至少两级选择列表;根据第二预定该操作,从多个语料分类选项中确定目标语料分类选项,包括:
根据所述第二预定操作,从所述至少两级选择的所有选择列表或者部分选择列表中的每个选择列表中分别选择一个语料分类选项,并将选择出的所有语料分类选项确定为所述目标语料分类选项。
在一种可能的实现方式中,在预定展示区域显示所述关联推荐文本之后,所述方法还包括:
根据第五预定操作,确定目标口音类型,并以所述目标口音类型播放所述关联推荐文本。
一方面,提供一种处理语料的装置,所述装置包括:
确定模块,用于确定需进行语义识别的目标文本;
分词模块,用于对所述目标文本进行分词处理,以获得所述目标文本包括的多个词语;
词向量模块,用于对每个词语进行词向量处理,以获得所述目标文本对应的词向量序列;
语义识别模块,用于将所述词向量序列输入预先训练的语义识别模型,以通过所述语义识别模型确定所述目标文本对应的目标语义特征;其中,所述语义识别模型是根据多个标注了语义标签的文本训练样本训练得到的,多个文本训练样本中包括第一类文本训练样本和第二类文本训练样本,所述第一类文本训练样本根据文本自身包括的语义关键词确定对应的语义标签,所述第二类文本训练样本根据文本关联的注释信息确定对应的语义标签。
在一种可能的实现方式中,所述装置还包括模型训练模块,用于:
获得多个第一类文本训练样本,以及获得多个第二类文本训练样本和每个第二类文本训练样本对应关联的注释信息;
根据第一类文本训练样本包括的语义关键词或者语义关键词对应的同义关键词确定对应的语义标签,以及根据第二类文本训练样本对应的注释信息包括的语义关键词或者语义关键词对应的同义关键词确定对应的语义标签;
对每个第一类文本训练样本和第二类文本训练样本进行词向量处理,以得到每个文本训练样本对应的词向量序列;
根据每个训练样本对应的词向量序列和语义标签,对初始的语义识别模型进行训练,以得到训练后的语义识别模型。
在一种可能的实现方式中,所述第二类文本训练样本包括不一致样本和模糊型样本;其中,所述不一致样本为文本自身包括的语义关键词和对应的注释信息中包括的语义关键词所表达的语义不一致的文本训练样本;所述模糊型样本为文本自身和对应的注释信息中均不包括用于表达预定语义的语义关键词的文本训练样本。
在一种可能的实现方式中,所述装置还包括关联推荐模块,用于:
确定与所述目标语义特征满足预设关联关系的关联语义特征;
从语料推荐池中确定具有所述关联语义特征的文本作为候选推荐文本;其中,所述语料推荐池中的每条语料的语义特征是通过所述语义识别模型确定的;
根据所述候选推荐文本进行与所述目标文本对应关联的文本推荐。
在一种可能的实现方式中,所述关联推荐模块用于:
将所述目标语义特征、与所述目标语义特征语义相同或相近的语义特征确定为所述关联语义特征;或者,
将与所述目标语义特征语义相反的语义特征确定为所述关联语义特征。
在一种可能的实现方式中,所述关联推荐模块用于:
从所述候选推荐文本中确定满足预设推荐条件的目标推荐文本;
调整所述目标推荐文本所包括的词语的排列顺序,得到重组后的目标推荐文本,其中,重组后的目标推荐文本与重组前的目标推荐文本的语义一致;
将重组后的目标推荐文本进行推荐。
在一种可能的实现方式中,所述关联推荐模块用于:
确定所述目标文本的句式结构;
按照所述目标文本的句式结构调整所述目标推荐文本所包括的词语的排列顺序,以使得重组后的目标推荐文本与所述目标文本的句式结构相同。
在一种可能的实现方式中,所述关联推荐模块用于:
确定包括所述目标文本在内相邻的至少两个句子的句式结构是否相同;
若相同,则按照所述目标文本的句式结构调整所述目标推荐文本所包括的词语的排列顺序。
在一种可能的实现方式中,所述关联推荐模块用于:
将所述目标文本进行分词处理和子句处理,以得到所述目标文本的单词序列和子句序列;
以单词为粒度,使用句式对齐模型中的第一循环神经网络和注意力机制得到所述目标文本的子句特征信息;
以子句为粒度,使用所述句式对齐模型中的第二循环神经网络和注意力机制得到所述目标文本的句式特征信息;
根据所述子句特征信息和所述句式特征信息,利用所述句式对齐模型对所述目标推荐文本包括的词语和子句进行对齐处理。
在一种可能的实现方式中,所述关联推荐模块用于:
确定目标推荐集合,其中,按照多个文本描述维度将所述语料推荐池包括的所有语料划分为对应的多个推荐集合;
将所述目标推荐集合中具有所述关联语义特征的文本作为所述候选推荐文本。
在一种可能的实现方式中,所述关联推荐模块用于:
响应针对所述目标推荐集合的选择操作,以确定所述目标推荐集合;或者,
根据用户对于推荐集合的历史选择信息,确定所述目标推荐集合;或者,
确定所述目标文本的发布平台,并根据所述发布平台的类型确定所述目标推荐集合;或者,
将推荐频率最高的推荐集合确定为所述目标推荐集合。
一方面,提供一种处理语料的装置,所述装置包括:
第一确定模块,用于根据第一预定操作,确定目标文本;
获得模块,用于获得与所述目标文本对应的关联推荐文本,其中,所述关联推荐文本的语义特征与所述目标文本的语义特征满足预设关联关系;
输出模块,用于输出所述关联推荐文本。
在一种可能的实现方式中,所述装置还包括第二确定模块,用于:
在所述获得模块获得与所述目标文本对应的关联推荐文本之前,根据第二预定操作,从多个语料分类选项中确定目标语料分类选项,其中,每个语料分类选项用于从一个描述维度对文本进行描述;
所述获得模块,用于获得与所述目标文本对应且符合所述目标语料分类选项的关联推荐文本。
在一种可能的实现方式中,所述多个语料分类选项包括至少两级选择列表;所述第二确定模块用于:
根据所述第二预定操作,从所述至少两级选择列表的所有选择列表或者部分列表中的每个选择列表中分别选择一个语料分类选项,并将选择出的所有语料分类选项确定为所述目标语料分类选项。
在一种可能的实现方式中,所述输出模块用于:
在预定展示区域显示所述关联推荐文本;或者,
语音播放所述关联推荐文本。
在一种可能的实现方式中,所述装置还包括输入模块,用于:
根据针对所述关联推荐文本的第三预定操作,将所述关联推荐文本输入到与所述目标文本具有预定位置关系的输入区域中;或者,
根据针对所述关联推荐文本的第四预定操作,对所述关联推荐文本进行编辑,并将编辑后的关联推荐文本输入到与所述目标文本具有预定位置关系的输入区域中。
在一种可能的实现方式中,所述装置还包括第三确定模块,用于:
在所述输出模块在预定展示区域显示所述关联推荐文本之后模块,根据第五预定操作,确定目标语音类型;
所述输出模块,用于以所述目标口音类型播放所述关联推荐文本。
一方面,提供一种计算设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述各种可能的实现方式中所描述的处理语料的方法包括的步骤。
一方面,提供一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述各种可能的实现方式中所描述的处理语料的方法包括的步骤。
一方面,提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行上述各种可能的实现方式中所描述的处理语料的方法包括的步骤。
本申请实施例中,在语义识别模型的模型训练阶段将文本关联对应的注释信息考虑在内,这样不仅可以得到文本的字面语义,更能够通过注释信息得到文本的字面意思之下的潜在语义,并且由于注释信息是用户更为真实、直接的语义表达,所以在包括注释信息时是将注释信息作为语义表达的识别依据,进而在基于这样的方式训练得到的语义识别模型进行语义识别时,对于中文委婉、含蓄、隐晦的常规表达方式,能够更为准确地提取到文本真实的潜在语义,进而提升文本语义识别的准确性和有效性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例中的seq2seq模型的示意图;
图2为本申请实施例适用的一种应用场景的示意图;
图3为本申请实施例适用的另一种应用场景的示意图;
图4为本申请实施例中的训练语义识别模型的流程图;
图5为本申请实施例中的训练语义识别模型的另一流程图;
图6为本申请实施例中的处理语料的方法的流程图;
图7为本申请实施例中的用户选择需要进行语义识别的文本的示意图;
图8为本申请实施例中的进行文本关联推荐的流程图;
图9为本申请实施例中的用户手动选择目标推荐集合的示意图;
图10为本申请实施例中的确定出的目标推荐文本的示意图;
图11为本申请实施例中的将关联推荐的目标推荐文本进行展示的示意图;
图12为本申请实施例中的进行句式结构调整的示意图;
图13为本申请实施例中的处理语料的方法的另一流程图;
图14为本申请实施例中的显示关联推荐文本的示意图;
图15为本申请实施例中的以语音播放关联推荐文本的示意图;
图16为本申请实施例中的复制关联推荐文本以直接输入的示意图;
图17为本申请实施例中的处理语料的装置的结构框图;
图18为本申请实施例中的处理语料的装置的另一结构框图;
图19为本申请实施例中的计算设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
以下对本文中涉及的部分技术用语进行说明,以便于本领域技术人员理解。
(1)人工智能,是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
(2)自然语言处理,是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
(3)机器学习(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
(4)循环神经网络(Recurrent Neural Network,RNN),具有记忆功能,它会记住网络在上一时刻运行时产生的状态值,并将该值用于当前时刻输出值的生成。循环神经网络由输入层、循环层和输出层构成,可能还包括全连接神经网络中的全连接层。循环神经网络的输入为向量序列,每个时刻接收一个输入,网络会产生一个输出,而这个输出是由之前时刻的输入序列共同决定的。
(5)双向循环神经网络,一般的循环神经网络在处理例如语义识别、序列标注等任务时面临的一个问题是循环神经网络是单向的,但有些问题不仅需要序列过去时刻的信息,还需要未来时刻的信息。例如,需要理解一个句子中的某个词语的含义,它不仅与句子中该词语前面的词语有关,还与其后面的词语有关,即需要结合上下文语境才能准确地理解该词语在句子中的实际含义,而解决这个问题的方法可以双向循环神经网络。
双向循环神经网络是用两个不同的循环层分别从正向和反向对数据进行扫描。假设双向循环神经网络的输入序列为:x1,x2,x3,x4
首先用第一个循环层进行正向迭代,得到隐含层(又称隐藏层)的正向输出序列:
Figure BDA0002237053670000071
其中,
Figure BDA0002237053670000072
由x1决定,
Figure BDA0002237053670000073
由x1、x2决定,
Figure BDA0002237053670000074
由x1、x2、x3决定,
Figure BDA0002237053670000075
由x1、x2、x3、x4决定,即每个时刻的状态值由到当前时刻位置的所有输入值序列决定,这利用的是序列的过去时间信息。
然后利用第二个循环层进行反向迭代,输入序列是:x4,x3,x2,x1,得到隐含层的反向输出序列是:
Figure BDA0002237053670000076
其中,
Figure BDA0002237053670000077
由x4决定,
Figure BDA0002237053670000078
由x4、x3决定,由x4、x3、x2决定,
Figure BDA00022370536700000710
由x4、x3、x2、x1决定,即每个时刻的状态值由它之后的输入序列决定,这里利用的是序列未来时刻的信息。
然后,将每个时刻的隐含层的正向输出序列和反向输出序列合并拼接起来得到进而再将其送入神经网络中后面的层进行处理得到输出值。
(5)长短期记忆模型(Long Short-Term Memory,LSTM),它是对循环层单元进行改造,避免用公式直接计算隐含层状态值。LSTM是一种长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM可以理解为是一种双向循环神经网络,而双向的LSTM则简称为BLSTM或BiLSTM或Bi-LSTM。
(6)注意力(Attention)机制,即人工神经网络领域所使用的注意力模型。注意力机制的本质来自于人类视觉注意力机制,人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看,而往往是根据需求观察注意特定的一部分,而且当人们发现一个场景经常在某部分出现自己想观察的东西时,人们会进行学习在将来再出现类似场景时把注意力放到该部分上。因此,注意力机制实质上是从大量信息中筛选出高价值信息的手段,在大量信息中,不同信息对于结果的重要性是不同的,这种重要性可以通过赋予不同大小的注意力权值来体现,换言之,注意力机制可以理解成对多个来源进行合成时分配权重的一种规则。
(7)词向量,或称Embedding特征或词向量特征,用于描述文本数据所包括的词之间的语义关系,词向量的描述思想是通过将自然语言表示的单词转换为计算机能够理解的稠密向量(Dense Vector)或矩阵形式,词向量即是文本在机器中数值化的体现。词向量特征的提取可以通过深度学习模型进行提取,例如可以采用卷积神经网络(ConvolutionalNeural Networks,CNN)模型、LSTM模型、RNN或者词语到向量(Word2Vec,Word to Vector,)模型等进行提取,当然,也可以采用其它可能的深度学习模型进行提取。
(8)Word2Vec模型,作为Google的开源词向量工具,其可以利用词语间的语义关系将词语转化为词向量,还可以利用词向量之间的语义距离关系识别出词语。
(9)序列到序列(Sequence to Sequence,Seq2Seq)模型,可以实现从一个序列到另外一个序列的转换,Seq2Seq模型是一个Encoder(编码)–Decoder结构的网络,它的输入是一个序列,输出也是一个序列,Encoder将一个可变长度的信号序列变为固定长度的向量表达,Decoder将这个固定长度的向量变成可变长度的目标的信号序列,Encoder-Decoder模型对输入和输出序列的长度没有要求,即,输入Encoder的序列与Decoder输出的序列可以不是等长的,因此应用场景也更加广泛,例如:机器翻译、文本摘要、阅读理解、语音识别、序列分类。其中,对于文本摘要,例如输入是一段文本序列,输出是这段文本序列的摘要序列;对于阅读理解,例如将输入的文章和问题分别编码,再对其进行解码得到问题的答案;对于语音识别,例如输入是语音信号序列,输出是文字序列;对于序列分类,例如输入一段文字判别它所属的类别,或者输入一个句子判断其情感倾向。
Seq2seq模型对应的Encoder-Decoder网络的基本思想就是利用两个RNN,一个RNN作为Encoder,另一个RNN作为Decoder。Encoder负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码,而Decoder则负责根据语义向量生成指定的序列,这个过程也称为解码,得到输出序列。其中,RNN目前有GRU(GatedRecurrent Unit,门控单元网络)和LSTM两种主要的变体,在性能上差异不大,但是GRU在计算量上比LSTM要少一些。
为了增强seq2seq的效果,可以同时采用使用Attention机制,在编解码器框架内,通过在编码端加入Attention机制,对源数据序列进行数据加权变换,或者在解码端引入Attention机制,对目标数据进行加权变换,可以有效提高序列对序列的自然方式下的系统表现,使模型知道该在输入序列的哪部分更新更大的权值以提取特征,从而能够更准确地体现各个词语在结合句子上下文后的实际含义,提高对词语理解和解读的准确性。
例如参见图1所示的seq2seq模型的示意图,其中包括Encoder和Decoder两部分,并且采用了Attention机制,另外,其中的LSTM可以是双向的LSTM,或者也可以用GRU替代。x1、x2、x3、x4是文本序列进行分词处理之后的多个单词,Encoder接受的是每个单词的词向量(Word Embedding)和上一个时间点的隐藏层状态(hidden state),输出的是这个时间点的hidden state,即各个单词输入Encoder转换成Word Embedding后进入LSTM,LSTM会在每一个时间点上输出hidden state,如图1中的h1、h2、h3、h4。Decoder接受的是文本序列中单词的Word Embedding和上一个时间点的hidden state,Decoder的hidden state与Encoder所有的hidden states作为输入,放入Attention模块开始计算一个Context vector(上下文向量),Context vector是一个对于Encoder输出的hidden states(即所有的hiddenstate)的一个加权平均。再到下一个时间点,之前的Context vector可以作为输入和文本序列的单词串起来作为LSTM的输入,之后又回到一个hidden state,如此循环。另一方面,Context vector和Decoder的hidden state合起来通过一系列非线性转换以及Softmax最后计算出概率,例如计算出某个文本序列可能所表达的各种潜在语义的概率。
(10)注释信息,是对书籍或文章的语汇、内容、背景、引文作介绍、评议的内容,简单来说,例如是用户在网络上针对某句文本所发表的评价或者一些主观理解内容,又例如是针对某句话(或者某句诗歌或者网络用语)的批注、备注、摘要等各种形式的理解信息。具体来说,例如是指网友(有网络帐号的用户)对某句话的评价信息、评论信息、回答信息、解释信息、备注信息、标签信息、批注信息、说明信息等等,可以将注释信息理解为是对文本的辅助理解和补充理解信息,注释信息一般来源于阅读平台、问答平台、社交平台等。
因为一般来说,人们在通过文本表达情绪时,鉴于中文的表达有很多隐晦和委婉的方式,有时候仅通过句子本身是难以体现用户真实的情绪表达的,例如,知名作家夏目漱石的名句“今晚的月色真美”,如果仅通过字面意思理解的话,则是对月色的赞赏,但是通过一些阅读平台对于该名句的注释(例如平台解释和网络评论)可知,该名句实际上是表达“我爱你”的意思,也就是说,其实际的语义是表达爱意,而并非夸赞月色,由于注释信息是用户对文本的真实、直接、更贴近人类对文本的实际理解的体现,所以对于有些句子来说,通过注释信息能够更为准确地体现其潜在的语义,例如是在表达爱意、悲伤或者是思念等情感语义。
如前所述的,语义识别可应用于多种应用场景,所以有必要考虑语义识别的准确性。在相关技术中,一般是提取文本中所包括的能够直接体现语义的关键词(本申请实施例中称作语义关键词),再通过提取到的语义关键词或者该语义关键词近义或者同义的其它关键词来确定文本的语义。然而,在实际中,文本中可能并不包括任何语义关键词,或者,有些人说话的方式是比较隐晦和委婉的,所以通过文本本身是难以确定用户实际想要表达的潜在语义,所以相关技术中语义识别的准确性还有待提高。
鉴于此,本申请实施例提供一种语义识别方案,通过机器学习的方式训练得到能够识别语义的语义识别模型,并且在语义识别模型的机器学习阶段,将文本关联对应的注释信息也考虑在内,这样不仅通过文本自身包括的语义关键词可以得到文本的字面语义,更能够通过注释信息得到文本的字面意思之下的潜在语义,并且由于注释信息是用户更为真实、直接的语义表达,所以在包括注释信息时是将注释信息作为语义表达的识别依据,进而在通过这样的方式训练得到的语义识别模型进行语义识别时,对于中文委婉、含蓄、隐晦的常规表达方式,能够更为准确地提取到文本真实的潜在语义,进而提升文本语义识别的准确性和有效性。
进一步地,基于本申请实施例提出的语义识别方案,还可以进行文本关联推荐,例如推荐与用户选中文本语义相同或相反的文本,由于语义识别的准确性提高了,所以基于该语义识别方案的推荐方案的准确性和有效性也可以提高。
为更好地理解本申请实施例提供的技术方案,下面对本申请实施例提供的技术方案适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
请参见图2,图2为本申请实施例适用的一种应用场景,在该应用场景中包括终端设备201和服务器202,终端设备201中安装有文档应用的客户端,文档应用是一款可供用户进行写作文档、编辑文档、在线转换文档和发布文档的应用,用户通过该文档应用可以写作文档并发布到相应平台上,并且,该文档应用还可以识别用户选中的文本的潜在语义,进而基于该潜在语义进行文本的关联推荐;以及,该文档应用可以将本地文档在线转换成在可多人协作的在线文档,其中,可多人协作的在线文档可以支持多人协作,在线文档是通过轻量级的Web页面展示,打开网页就可以进行文档的查看和编辑,并且在云端实时进行保存,还可以实现多人实时编辑,权限安全可控;服务器202是为文档应用提供后台服务的服务设备,终端设备201与服务器202之间网络连接。
例如图1中所示的,用户1想要写作一段表达“爱意”的文档,于是通过终端设备201中安装的文档应用写下了“我喜欢你,希望和你一起走下去”的语句,用户1写作的方式例如是图1中所示的手写输入,或者也可以语音输入,本申请实施例不做限制。由于用户1的写作能力有限,所以希望通过文档应用为用户推荐能够表达“爱意”的精美的、情感丰富的语句。首先,例如用户选中“我喜欢你”这句话,进一步地,终端设备201可以将选中的“我喜欢你”和需要进行关联推荐的请求发送给服务器202,服务器202则先确定“我喜欢你”的潜在语义,例如通过语义识别模型来确定语义,例如确定出的语义是表达“爱意”,进一步地再从推荐资源中选择表达“爱意”的推荐文本后发送给终端设备201,终端设备201可以将服务器202推荐的文本进行展示,用户1可以根据自己的撰写习惯或者表达要求从推荐文本中进行选择,这样,可以在一定程度上提高用户1写作文档的水平,提升文档的可阅读性。
再参见图3,图3为本申请实施例适用的另一种应用场景,在该应用场景中包括终端设备301、终端设备302、终端设备303、终端设备304和服务器305,其中的各个终端设备均具有语音控制功能,例如终端设备301是平板电脑,终端设备302是智能音箱,终端设备303是智能电视,等等,用户2可以通过语音对这些终端设备进行语音控制。以终端设备302为例,用户2可以对着终端设备302说出一句语音,终端设备302在检测到该语音信号之后,可以采用NPL技术将其转换成文本序列,并且识别该文本序列对应的语义,进行实现相应的控制,以实现语音控制的功能。其中,识别文本序列的语义,可以是由终端设备302自身部署的语义识别模型来进行语义识别,或者语义识别模型也可以部署在服务器305侧,通过服务器305识别语义之后再向终端设备302发送相应的控制指令,以实现对用户1的语音信号的语音控制功能。
图2-图3中的每个终端设备可以是手机、平板电脑、掌上电脑(Personal DigitalAssistant,PDA),笔记本电脑、智能穿戴式设备(例如智能手表和智能头盔)、个人计算机、智能电视、智能音箱、车载智能设备,等等。以及,图2和图3中的服务器202和服务器305可以是个人计算机、大中型计算机、计算机集群,等等。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可按照实施例或者附图所示的方法顺序执行或者并行执行。
如前所述的,为提高文本语义识别的准确性,本申请实施例提供一种处理语料的方法,该处理语料的方法是基于预先训练好的语义识别模型来进行语义识别的,所以,在介绍本申请实施例中的处理语料的方法之前,以下先结合图4和图5对本申请实施例中的语义识别模型的训练过程进行说明。
图4所示的模型训练过程描述如下。
步骤401:获得文本训练样本集。
训练语义识别模型的第一步,则是搜集训练样本,本申请实施例中将用于训练语义识别模型的样本称作文本训练样本,所有文本训练样本的集合称作文本训练样本集,本申请实施例中的文本训练样本集包括第一类文本训练样本和第二类文本训练样本,而对于第一类文本训练样本和第二类文本训练样本的数量可以不做限制,例如为了样本均衡,第一类文本训练样本和第二类文本训练样本的数量可以大致相同,或者,为了更偏重于文本的注释信息来进行语义识别和挖掘,第二类文本训练样本的数量可以大于第一类文本训练样本的数量。
其中,第一类文本训练样本是可以直接根据文本自身包括的语义关键词而确定语义标签的,即第一类文本训练样本的语义是通过文本自身所包括的语义关键词而明确体现的,例如可以将第一类文本训练样本称作明确型文本训练样本,简称为明确型样本。而第二类文本训练样本是借助于文本关联的注释信息来确定语义标签的,也就是说,第二类文本训练样本是依靠于文本的注释信息来对文本的语义进行辅助定位和补充理解的,例如可以将第二类文本训练样本称作补充型文本训练样本,简称为补充型样本。
如前所述的,相关技术中一般是通过文本自身所包括的语义关键词来进行语义识别,在某些情形下文本自身可能并未包括能够明确表达语义的语义关键词,或者由于说话者隐晦、委婉表达的方式,文本自身所包括的语义关键词可能根本无法体现用户原本实际上想要表达的语义,所以有必要通过其它补充方式来理解文本的语义。由于针对文本的注释信息(例如评价信息或者评论信息或者备注信息或者摘要信息)一般是用户对文本的更为直接、透彻的理解,能够更为准确地表达文本实际所表达的语义,所以本申请实施例中还利用文本的注释信息来对文本的语义进行补充理解,而这种利用文本的注释信息来补充理解文本的潜在语义的样本在本申请实施例中称作第二类文本训练样本。
在具体实施过程中,可以通过网络爬虫技术从网络中收集获得文本训练样本,或者也可以直接从系统服务器的数据库直接获取,或者也可以从维基百科的中文离线数据库样本中收集样本,样本的收集可以覆盖较多的应用场景,例如社交网络应用、金融客服系统、旅游信息服务等应用场景,增大样本的覆盖场景,这样在后期进行语义识别时泛化性更强,以尽量提高语义识别的准确性。
根据样本和对应的注释信息,以下对本申请实施例中的第一类文本训练样本和第二类文本训练样本进行举例说明。
第一类文本训练样本是能够通过文本自身所包括的语义关键词明确地表达文本的情感语义的明确型样本,第一类文本训练样本例如可以包括以下几种。
1)只有文本没有对应的注释信息,且文本中明确包括用于表达语义的语义关键词。以语义是“爱意”为例,例如文本中明确包括“爱”、“爱情”、“相爱”、“深爱”、“钟爱”、“挚爱”、“爱恋”、“相守”、“喜欢”、“表白”、“亲密”、“我爱你”、“真的爱你”、“相濡以沫”、“含情脉脉”、“海枯石烂”、“天长地久”、等关键词语,可见,关键词语可以为一字、两字、三字的词语,或者也可以为四字词语(例如成语),或者也可以包括更多字数的词语,本申请实施例不做限制。通过这些明确用于表达“爱意”的语义关键词,可以确定这类文本的语义是在表达爱意。
2)只有文本没有对应的注释信息,且文本中未包括用于表达预定语义的语义关键词,例如,在需要训练能够识别“爱意”这种预定语义的语义识别模型时,则需要大量具有“爱意”这种语义标签的样本,若某个样本中并未明确包括用于表达“爱意”的语义关键词,那么可以先确定文本中是否包括与“爱意”这种语义类型近似关联的语义类型(例如“依恋”、“依赖”、“思念”等)所对应的语义关键词,若有,则可以同时也为这类样本打上“爱意”的语义标签,所以此时的文本可能同时包括“爱意”、“依赖”、“思念”这三个语义标签。
也就是说,若文本既不包含能够表达预定语义的关键词,又没有对应的注释信息辅助判断,则可以通过文本中包括的与表达预定语义的关键词语义关联的同义词来判断该文本是否为有效样本,即可以通过同义词资源提取文本的同义词集合,从与“爱意”这种语义具有语义关联的其它维度(例如表达关心、表达依赖、表达思念)集合更多同义词来标注样本。比如,“和你分开一天,如隔三秋”,通过字面的能够表达“思念”的“如隔三秋”这个语义关键词,也可以将其同时标注上“爱意”的语义标签,本申请实施例中例如将这种通过同义词进行语义标签模糊标注的样本称作模糊性样本,并且是以文本自身来进行语义标签的确定的。
3)有文本并且有对应的注释信息,文本中包括明确表达语义的语义关键词而注释信息中未包括语义关键词,此时的注释信息对于文本的语义表达来说可以认为是无用的,所以可以忽略,还是以文本自身的语义关键词来确定语义。
4)有文本并且有对应的注释信息,文本和注释信息中均包括能够明确表达语义的语义关键词,且文本和注释信息中分别包括的语义关键词是用于表达同一语义的近似词或者同义词,此时仍然可以以文本自身所包括的语义关键词来体现文本语义。以表达“佩服”这种语义为例,假设样本文本和对应的注释信息中均包括例如“佩服”、“敬佩”、“钦佩”、“折服”、“拜服”、“服气”、“敬仰”、“敬重”、“膜拜”、“崇拜”、“了不起”、“了不得”、“太棒了”、“五体投地”、“心悦诚服”、“甘拜下风”、“顶礼膜拜”、“肃然起敬”等这些能够明确表达“佩服”这种语义的同义关键词。
第二类文本训练样本是以注释信息的语义表达来体现文本的语义表达,由于注释信息是人们对于文本直接、更为贴近用户真实语义表达的内容,所以通过注释信息能够在一定程度上更为准确地了解文本自身想要真实表达的潜在语义,这样,在通过文本自身无法直接明确体现语义表达或者语义表达不准确时,通过文本对应的注释信息来对文本的潜在真实语义进行补充理解,考虑到中文表达委婉的问题,如果要让模型输出结果接近中国人实际的说话方式和写作风格,就不能只是简单的考虑文本的表面用词,更应该注重用户的潜在语义表达。第二类文本训练样本例如可以包括以下几种。
1)有文本并且有对应的注释信息,文本和注释信息都包括有明确的语义关键词,但是这两种语义关键词表达的并不是同一种语义,例如又可以将这类样本称作不一致样本,即不一致样本为文本自身包括的语义关键词和对应的注释信息中包括的语义关键词所表达的语义并不一致。
例如,文本是“我对你的爱更多的是对妹妹的爱”,用户的评论信息是“好残忍的拒绝方式,替女主心痛”,其中,通过文本中包括的“爱”这个明确的语义关键词可以得到文本字面意思所表达的语义是“爱意”,但是通过评论信息可知该文本实际表达的语义是“拒绝”或者“拒绝爱意”,这种表达方式在“伤痛文学”这类文学表现方式中较为常见。可见,文本中的语义关键词和注释信息中的语义关键词所表达的语义不是同一语义,即,通过文本自身包括的语义关键词所体现的字面语义与通过注释信息中的语义关键词所体现的潜在语义是不一样的,甚至还可能是相反的语义特征。
由于一般来说,注释信息能够更为准确的表达人们的实际感情和想法,并且注释信息是能够均衡地反映大众用户的想法,更能体现样本的泛化性,所以,对于不一致样本,本申请实施例是以注释信息所表达语义作为文本实际的语义。
2)有文本并且有对应的注释信息,文本中没有语义关键词,而注释信息中包括有明确型的语义关键词,在该情形下,则可以直接以注释信息中包括的语义关键词所表达的语义体现文本所表达的语义。
3)有文本并且有对应的注释信息,但是这两者均未包括能够体现语义的语义关键词,具体来说,是未包括能够体现预定语义(例如“爱意”)的语义关键词,根据上述介绍第一类文本训练样本中的第2)种样本的类似处理方式,可以判断注释信息中是否包括与预定语义具有语义关联的其它语义关键词,若有,则通过同义词资源的方式,结合其它维度来对这种文本进行语义标签的标注,同时也可以将这类样本称作模糊性样本,但是该模糊型样本是以文本的注释信息为主来进行语义标签的标注的。
针对一个文本,例如对于训练表达爱意的样本,文本中不包括用于明确表达爱意的关键词,则可以识别其它的一些关键词,例如“依恋”、“依赖”、“思念”等情感语义特征,由于这些词语与表达“爱意”是具有同向性的,即可以理解为是同义词,所以也可以为其打上“爱意”的语义标签,即也可以为其自动标注为“爱意”的语义标签。也就是说,针对一个训练样本,可以同时打上多种语义标签,而这多种语义标签的所表达的语义一般是近似的,或者说是同义的,或者语义是相近的,称之为语义关联。
在收集好文本训练样本之后,可以为每个样本编号,即,为文本训练样本集建立索引,这样,后期通过索引可以快速地查找和抽取某个文本训练样本。
步骤402:对每个文本训练样本进行预处理。
在获得文本训练样本集之后,可以对每个样本进行预处理,例如去除句子中包括的标点符号、特殊符号、不可识别词以及一些停用词,以及去除一些例如“喔”、“啊”等感叹词和一些不重要的词语,以提升后续对样本的处理效率。
步骤403:根据第一类文本训练样本包括的语义关键词或者语义关键词对应的同义关键词确定对应的语义标签,以及根据第二类文本训练样本对应的注释信息包括的语义关键词或者语义关键词对应的同义关键词确定对应的语义标签。
根据前述介绍的多种样本形式,以及关于各种类型的样本对于文本和对应的注释信息中的语义关键词的理解方式,可以确定出每个样本的语义标签,例如对于前述介绍的第一种文本训练样本中的第1)种情形中的样本,则可根据文本中明确包括的表达语义的语义关键词来标注该样本的语义标签,又例如对于前述介绍的第二种文本训练样本中的第2)种情形中的样本,则可根据注释信息中明确包括的表达语义的语义关键词来标注该样本的语义标签,等等。
进一步地,可以对每个样本进行分词处理,例如可以采用一些通用的分词处理方式来进行分词处理,以得到每个样本所包括的多个单词所组成的单词序列。例如以“我爱我的祖国”这个文本句子为例,经过分词处理之后可以得到“我”、“爱”、“我的”、“祖国”这4个单词,对应的单词序列即为[我,爱,我的,祖国]。
步骤404:对每个文本训练样本进行词向量处理,以得到每个文本训练样本对应的词向量序列。
在具体实施过程中,例如可以采用Word2Vec模型或者seq2seq模型中的Encoder部分来对每个样本所包括的单词进行词向量训练,每个分词的词向量是基于该分词的上下文语义的词向量,也就是说,在训练每个分词的词向量时,是结合该分词在对应文本训练样本中的上下文语境得到的,这样更能准确地体现出各个分词在对应的文本训练样本中实际的数值化体现,每个分词得到相应的词向量之后,则可以得到每个文本训练样本对应的词向量序列。
步骤405:根据每个文本训练样本对应的词向量序列和语义标签,对初始的语义识别模型进行训练,以得到训练后的语义识别模型。
本申请实施例中,可以seq2seq模型作为语义识别模型的基础模型,即语义识别模型是在seq2seq模型的基础上利用文本训练样本集进行模型训练后得到的,并且,还可以采用Attention机制,即采用seq2seq+Attention模型,当然,在具体实施过程中,还可以以其它网络模型作为基础模型来训练得到语义识别模型,本申请实施例不做限制。
以训练能够识别“爱意”这种语义的训练过程为例进行说明,请参见图5所示,在采集到语义标签标注为“爱意”的训练样本之后,可以对每个训练样本进行预处理,根据前述介绍第一类文本训练样本和第二类文本训练样本,例如可以将这些样本进一步地划分为明确型样本、不一致样本、模糊型样本和其它类型样本,再针对每个训练样本分别进行向量化表示,进而可以提取到与明确型样本对应的明确型词向量特征、与不一致样本对应的不一致词向量特征、与模糊型样本对应的模糊性词向量特征,等等,然后再将这些向量特征输入到eq2seq+Attention模型中,由于每个向量特征均有自身对应标注的语义标签,在该实施例中均是以标注了“爱意”这种语义标签的样本为例,这样,通过机器学习的方式,可以学习到能够表达“爱意”这种语义的词向量特征,在输入的训练样本越丰富的情况下,则可以学习到尽量多地能够表达“爱意”这种语义的词向量特征。
以上是以训练学习能够表达“爱意”这种语义的过程为例进行介绍说明,对于其它的语义的训练学习过程也是类似的。在具体实施过程中,对于可以针对每种语义类型的样本分批次训练,这样既可以避免过量的样本数据同时进行训练导致对设备性能的要求较高,或者逐条数据训练所造成的训练效率低下,提升模型训练效率的同时也可以提高语义识别模型的精确度。
在训练过程中,可以有目的性只对几种语义类型进行训练,例如仅对“爱意”、“悲伤”、“离别”、“佩服”、“幽默”这五种语义类型进行针对性训练,或者也可以对更多类型的语义类型同时进行训练。在训练过程中通过机器学习的方式学习到了能够表达各种语义的语料特征,尤其是根据第二类文本训练样本,通过机器学习可以得到一些文本通过注释信息表达的潜在语义特征,相对于常规的仅通过文本中自身包括的词语学习到的语料特征的方式,这样学习到的语料特征能够尽量地与用户实际想要表达的潜在语义相符,以满足中文含蓄、委婉、隐晦的语义表达方式,进而提高语义识别的准确性和有效性。
在通过上述图4和图5得到训练好的语义识别模型之后,可以应用该语义识别模型进行语义的有效识别,在具体实施过程中,可以在多种应用场景下利用本申请实施例中训练得到的语义识别模型进行语义有效识别,例如,可以应用在如图2所示的文本关联推荐的应用场景中,或者可以应用于如图3所示的语音控制场景中,或者可以应用于其它需要进行语义识别的应用场景中,本申请实施例不做限制。
随着市面上的写作产品(例如前述介绍图2中提到的文档应用)越来越多,以下以图2所示的应用场景为例对本申请实施例中训练得到的语义识别模型的应用进行介绍。
目前市面上的写作产品已经发展的比较成熟,但目前几乎所有的写作产品都只是提供基础的工具,帮助用户润色文字的形式、呈现或层次,而文字所描述的画面、意境都完全取决于写作者自己的造诣,而根据不同用户的文学造诣不同,有的用户能够轻易的行云流水的写出情感丰富、用词精美的文档,而用的用户则苦于自身的文学造诣较差,难以写出可读性较强的文档,可见,书写并不困难,困难的是将意图巧妙地表达出来。
目前市面上的写作产品也提供文本关联推荐的功能,即在用户写作的过程中,可以根据用户选中的文本进行关联推荐,但是目前的关联推荐方式,是根据用户选中文本中明确的语义关键词进行粗糙的推荐,系统推荐出的句子中也是包括用户选中文本中的语义关键词,或者还可以提供同义词库,这样系统推荐出的句子中或者可以包括与用户选中文本中的语义关键词同义的其它关键词,这种推荐只是脱离上下文和实际语境环境的词语或句子的建议,和用户选中文本的潜在语义和意境一般并没有什么关联关系,所以这样的推荐的关联意义并不大,而且如前所述的,基于中文的委婉、含蓄的表达方式,用户选中文本中包括的语义关键词可能并不能够表达用户真正的潜在语义,所以基于错误的语义理解的关联推荐的准确性和有效性都较差,用户采纳引用的概率较低。
例如,用户希望进行关联推荐的句子是“这么简单的考试你居然不及格,我对你佩服的是五体投地”,很明显,根据中文委婉的表达方式,可知该句子实际表达的潜在语义是“嘲讽”,但是按照目前的语义识别机制,即通过提取文本中包括的语义关键词然后进行对应推荐的方式,系统确定出的用户选中文本的语义即是字面语义“佩服”。如果用户希望的是让系统进行同语义的文本关联推荐,由于系统识别出的语义是“佩服”,所以推荐出的几个句子例如是“我对阁下的眼光佩服的五体投地”,而目前的写作产品推荐的关联句子例如是“严老师整个人虽说是其貌不扬,但教训起人来,却让我们佩服地五体投地”、“这样一举三得,我对苏轼的聪明才智佩服地五体投地”、“只有到了这时,人们才对它另眼相看,肃然起敬了”这三个句子,可见这三个推荐的句子均是实际表达“佩服”语义的,很明显这与用户选中文本的实际潜在语义并不相符,这是由于现有的语义识别机制并不能准确地识别出用户选中文本的潜在语义,而只是粗糙地将字面语义理解为是潜在语义,所以才导致了无效推荐。
鉴于此,本申请实施例提供一种基于前述介绍的语义识别方法的关联推荐方法,具体来说,是文本的关联推荐,以下通过图6进行详细说明。
步骤601:确定需进行语义识别的目标文本。
请参见图7所示的在写作产品中的关联推荐场景,用户在写作的过程中,选择了“我喜欢你”这句话作为需要进行关联推荐的文本,本申请实施例中将用户选择的需进行关联推荐的文本称作目标文本,由于在进行关联推荐之前,还需准确地识别该文本的潜在语义,所以目标文本也是需要进行语义识别的文本。对于用户选中目标文本的操作,例如是通过预定的点击操作、手势操作或者声控操作选择,本申请实施例不做限制。
步骤602:对目标文本进行分词处理,以得到目标文本包括的多个词语。
步骤603:根据每个词语对应的词向量得到目标文本对应的词向量序列。
对目标文本的分词处理以及词向量处理过程,可以参见前述在语义识别模型的训练过程中对文本训练样本的分词处理和词向量处理过程进行相同理解,此处就不再重复说明了。
步骤604:将得到的词向量序列输入预先训练的语义识别模型,以通过语义识别模型确定目标文本对应的目标语义特征。
本申请实施例中的语义识别模型可以用于对多种类型的语义类型进行有效识别,在获得目标文本对应的词向量序列之后,例如可以计算该词向量序列与模型中训练好的各个语义类型的语义词向量之间的距离,进而可以得到该目标文本与每个语义类型之间的相似度,具体来说,可以得到该目标文本的语义类型的多个概率值,进而根据多个概率值来确定目标文本的实际潜在语义。
以“我喜欢你”这个目标文本为例,例如通过语义识别模型计算出该目标文本的语义为“爱意”的概率是90%、是“抱怨”的概率是48%,是“佩服”的概率是79%、是“幽默”的概率是66%,是离别的概率是52%,进一步根据概率值的高低可以最终确定该目标文本实际所表达的语义是“爱意”,即该目标文本的潜在语义与其字面语义是一样的,均是表达“爱意”。
再以“我对你的爱更多的是对妹妹的爱,并无其它”的目标文本为例,例如通过语义识别模型计算出该目标文本的语义为“爱意”的概率是88%、是“抱怨”的概率是65%,是“拒绝”的概率是95%、是“幽默”的概率是40%,是离别的概率是78%,进一步根据概率值的高低可以最终确定该目标文本实际所表达的语义是“拒绝”,而该目标文本的字面语义应该是“爱意”,即该目标文本的潜在语义与其字面语义是不一样的,所以基于中文的含蓄、委婉的表达方式,可以认为该目标文本的实际潜在语义是“拒绝”。
需要说明的是,本申请实施例只是以这种数值举例的方式来简单地说明语义识别的过程,在具体的语义识别过程中,可以按照通用的模型识别方式进行识别,本申请实施例不做限制。
本申请实施例中,由于用于进行语义识别的语义识别模型是基于前述的第一类文本训练样本和第二类文本训练样本训练得到的,第一类文本训练样本能够对文本自身所体现的字面语义进行表达,第二类文本训练样本能够通过对文本的注释信息对文本字面之下的潜在语义进行补充理解,这更能符合中文含蓄、隐晦、委婉的表达模式,所以可以提高语义识别的准确性和有效性。
以上述目标文本为用户选中的需要进行文本关联的用户选中文本为例,以下通过图8对本申请实施例中的文本关联推荐的技术方案进行详细说明。
步骤801:通过用户选中文本激活预先训练好的语义识别模型。
具体来说,可以通过语义识别模型对用户选中文本进行语义识别,例如将通过语义识别模型识别出的用户选中文本的语义称作目标语义特征。
步骤802:确定与目标语义特征满足预设关联关系的关联语义特征。
在具体实施过程中,可以根据实际使用需求预先对预设关联关系进行设置,在一种可能的实施方式中,预设关联关系为与目标语义特征相同的语义特征,即此时的关联语义特征即为目标语义特征;在另一种可能的实施方式中,预设关联关系为与目标语义特征语义相同或相近的语义,即此时的关联语义特征为与目标语义特征语义相同或相近的语义特征;再在另一种可能的实施方式中,预设关联关系为与目标语义特征语义相反的语义特征,即此时的关联语义特征为与目标语义特征语义相反的语义特征。
这样,通过预设关联关系灵活地设置关联语义特征的需求条件,例如用户在写作的过程中,希望系统推荐语义相同的文本作为借鉴和引用,以对写作的文档进行语气上的增强表达,或者在需要表达截然相反的两种语义时,则希望系统推荐语义相反的文本作为参考,以满足用户的差异化写作需求。
步骤803:从语料推荐池中选择目标推荐集合。
在关联推荐的场景中,可以预先收集推荐语料,将收集的这些推荐语料的集合例如称作语料推荐池或者语料推荐库。由于语料推荐池是用于为用户进行语料关联推荐的,所以收集的这些推荐语料一般是具有一定文学造诣或者是大多数用户比较推崇的文本,例如是一些知名作家的名言名句,例如是一些广为流传的古诗词,例如是一些知名人士比较出名的语句,例如是网络上一些广为传播的网络语句,等等。
为了在关联推荐时能够尽量丰富地为用户进行推荐,语料推荐池中的推荐语料的数量也是比较多的,而不同的推荐语料的描述文风和文体可能也是不同的,为了对众多的推荐语料进行管理,本申请实施例中可以按照多个文本描述维度将所有推荐语料划分为多个推荐集合,例如,可以按照“文艺”、“幽默”、“严肃”、“诗歌”、“散文”、“华美”、“朴实”等文体风格将推荐语料划分为对应的多个推荐集合,又例如,不同的作者一般有自己惯用的说话口吻和方式,所以还可以按照文本作者将推荐语料划分为对应的多个推荐集合,例如划分为“李白”、“徐志摩”、“蔡**(知名演员)”、“王**(知名主持人)”等多个推荐集合,等等。
在对用户进行关联推荐时,可以先从众多的推荐语料中选定一个大致推荐范围,即可以从多个推荐集合中选择当前需要从中选择的推荐集合,例如将选择出的当前需要从中选择推荐语料的集合称作目标推荐集合。在具体实施过程中,该目标推荐集合应该是能够尽量满足用户的实际写作需求的,这样可以确保推荐的准确性,达到有效推荐。
在一种可能的实施方式中,请参见图9所示的用户选择目标推荐集合的示意图,其中图9中的a图表示用户选中了需要进行关联推荐的文本,即“我喜欢你”,b图表示用户通过点击“语义翻译”的控件触发系统进行语义识别,c图表示用户正在手动选择目标推荐集合,即用户正通过点击操作选择“文艺”这种关联推荐的文风,d图表示用户最终选择出的目标推荐集合是“文艺”+“蔡**”,即用户希望系统为其推荐蔡**(知名演员)所写作过的或者所说过的具有“文艺”风格的语料。也就是说,系统可以响应用户针对目标推荐集合的选择操作,进而根据用户的选择操作来对应确定用户希望使用的目标推荐集合,这种方式是用户真实意图直接、真实的体现,所以选择出的目标推荐集合是能够尽量满足用户的实际关联推荐需求的,准确性和有效性较高。
在另一种可能的实施方式中,系统也可以自动推荐,例如可以获得该用户过去每次选择推荐集合时的偏好,进而根据用户对于推荐集合的历史选择信息来确定目标推荐集合,例如将用户历史中选择次数最多即表明用户最喜欢使用的推荐集合作为本次确定的目标推荐集合。在该实施方式中,通过用户的使用习惯和需求进行自动推荐,能够在一定程度上满足用户的实际使用需求。
在另一种可能的实施方式中,系统可以直接将推荐频率最高的推荐集合直接作为本次的目标推荐集合,因为,系统推荐频率最高的一般是表明大多数用户都能够接收且愿意使用的,所以该方式能够满足大多数用户的实际使用需求,泛化性较好。
在另一种可能的实施方式中,系统还可以确定出目标文本,即用户希望进行关联推荐的用户选中文本的写作平台或者发布平台,例如用户是要在微博上更新自己的博客,或者是要在某小说平台进行在线投稿,或者是要在某资讯平台的“政治”分类栏目下进行投稿,或者是要做年底公司总结以发布个公司内部的各员工进行传阅,等等,根据这些发布平台的类型不同,可以大致确定对关联推荐的文档的风格的大致需求,例如若是在“政治”分类栏目下进行投稿,则需要严肃、庄重的文体,若是在小说平台进行在线投稿,则可以要求文艺、幽默的写作文风,等等。也就是说,系统可以根据用户选中文本的发布平台的类型来自动选择推荐集合,以使得最终推荐出的推荐语料能够尽量满足用户当前的实际写作需求,增强用户使用体验。
步骤804:利用语义识别模型从目标推荐集合中选择具有上述的关联语义特征的语料作为候选推荐文本。
在确定目标推荐集合之后,则可以采用前述介绍的本申请实施例中通过第一类文本训练样本和第二类文本训练样本训练得到的语义识别模型对目标推荐集合中的各个推荐语料的语义进行识别,以选择出具有上述的关联语义特征的语料,并且将这些选择出的语料作为候选推荐文本。
在具体实施过程中,可以在确定关联语义特征之后,再临时动态地利用语义识别模型来识别目标推荐集合中的各个推荐语料的语义特征,由于目标推荐集合相对于语料推荐池的范围要小,所以这种临时动态对关联语料进行语义识别的方式的计算量也不是很大,可以尽量确保识别效率。
在另一种可能的实施方式中,还可以预先就通过语义识别模型计算语料推荐池中的每个推荐语料的语义特征,例如在系统并未进行文本关联推荐的空闲时刻就预先进行识别,进而将每个推荐语料识别出的语义特征与对应的推荐语料进行关联,这样,当后续需要进行关联推荐时,直接从静态的推荐语料与对应的语义特征之间的映射关系中查找上述的关联语义特征,进而将具有关联语义特征的推荐语料直接作为候选推荐文本,在该方式中,避免了临时大批量地进行语义识别,可以减小系统压力,同时可以提高候选推荐文本的选择效率,进而提高关联推荐的效率。
本申请实施例中,候选推荐文本和用户选中文本均是采用本本申请实施例中的语义识别模型进行语义识别的,不仅可以保证两者的语义识别的机制一样,以避免采用不同语义识别机制而导致的识别差异,同时可以确保两者的语义识别的准确有效,进而提高关联推荐的有效性。
步骤805:从候选推荐文本中确定满足预设推荐条件的目标推荐文本。
在具体实施过程中,可以将选择出的候选推荐文本全部推荐给用户,但是在实际中,选择出的候选推荐文本可能比较多,全部推荐给用户的话对用户来说相当于也是大量信息的堆积,不利用用户直接采用,基于此,本申请实施例可以通过预设推荐条件来对候选推荐文本进行进一步地筛选,例如将从候选推荐文本中进一步筛选出来的推荐文本称作目标推荐文本。
例如,可以通过数量来进行筛选,若候选推荐文本的数量小于6,则可以全部推荐给用户,若数量大于6,则可以选择系统推荐频率最高的作为目标推荐文本,或者随机选择6个进行作为目标推荐文本,或者可以选择与用户选中文本的句式结构最相近的6个作为目标推荐文本,或者可以采用其它的方式来进行筛选,本申请实施例不做限制。
如图10所示的,例如系统从图9所示的用户选择的目标推荐集合所包括的多条推荐语料中,只选择了一条用于表达爱意的推荐语料,即是蔡**以“文艺”口吻说过的“等到我可以被你爱着的时候,我将依靠你的光,确认我的存在”这句话,进而系统可以将这条推荐语料作为最终的目标推荐文本。
步骤806:判断是否满足预设重组条件。
其中,预设重组条件是用于触发对目标推荐语料所包括的词语进行语序重组的触发条件,在满足预设重组条件时,即表明需要对目标推荐语料进行语序的重组。例如,系统中可以设置是否进行重组的选择,用户可以根据自己的实际使用需求选择是否进行重组,若用户预先选择了重组,那么在获得目标推荐文本之后,系统则可以确定满足预设重组条件;又例如,当系统检测到用户选中文本你的句式结构与目标推荐文本的句式结构不同时,也可以认为满足预设重组条件;再例如,系统默认设置都均需要对目标推荐文本进行重组,等等。
步骤807:在满足预设重组条件时,调整目标推荐文本所包括的词语的排列顺序,得到重组后的目标推荐文本。
其中,重组后的目标推荐文本以未重组的目标推荐文本的语义是保持一致的,换言之,本申请实施例中的重组只是简单地调整文本所包括的词语的排列顺序,或者进一步地可以调整句式结构,但是需要保持重组后的文本的语义不发生变化,这样可以确保前述进行关联推荐的有效性。
继续以图10所示的确定出的目标推荐文本是“等到我可以被你爱着的时候,我将依靠你的光,确认我的存在”这个句子为例,例如经过重组之后得到的文本是“等到你爱我的时候,我想依靠你的光确认我的存在”,可见这两个句子在词语排序和句式结构上都发生了较大变化,但是文本语义还是基本保持一致的。在重组的过程中,可以适当地去掉以及添加一些例如副词、语气助词、连接词等角色不重要的词语,同时也可以适当的将一些词语以同义词或者近义词进行替换,或者也可以去掉部分词组,例如图11中所示的最终推荐个用户的重组后的目标推荐文本仅仅是“我想依靠你的光确认我的存在”,以尽量地与原始的推荐语料形成字面上的区别,以提高对推荐语料的借鉴和参考力度,避免简单的复制和移植。
通过对文本进行重组的二次加工方式,可以使得用户在引用或者借鉴这些推荐文本时并非是原封不动的复制别人的语句,这样可以尽量避免文本侵权的发生,以尽量保护用户的权益,增强系统对文本推荐的合法性和有效性。
如上所述的,重组的一种方式是简单的词语的重新排序和不重要词的修改,进一步地重组还可以包括句式结构的调整,而调整的依据可以是按照用户选中文本的句式结构来进行调整,以使得重组后的目标推荐文本不仅在语义上可以和用户选中文本保持一致,同时在句式结构上也可以保持一致,这样通过相同的句式结构的呈现,可以增强文档的可阅读性。
此外,在按照用户选中文本你的句式结构对目标推荐文本的句式结构进行相同调整之前,还可以先判断包括用户选中文本在内相邻的至少两个句子的句式结构是否相同,例如可以判断包括用户选中文本往前或者往后相邻的两个句子的句式结构是否相同,例如都是“主+谓+宾”的句式结构,因为在中文表达中,多个语义相近且句式结构相同的句子并列呈现,则是以排比句的方式来增强语气表达,例如用排比句来说理,可达到条理分明的效果;用排比句来抒情,节奏和谐,显得感情洋溢、气势更为强烈;用排比句来叙事写景,能使层次清楚、描写细腻、形象生动。而排比句一般是三个或更多数量的句式并列结构,所以通过本申请实施例中的相邻多个的句式结构是否一致的比对,可以在是预测用户需要进行排比写作的时候有目的地进行句式结构的调整,以提高句式结构调整的针对性,使得句式结构的调整操作更为有意义,增强用户的使用体验。
在具体实施过程中,可以利用句式对齐模型对所述目标推荐文本进行与所述用户选中文本相同句式结构的句式调整。例如,首先,将用户选中文本进行分词处理和子句处理,以得到目标文本的单词序列和子句序列;再以单词为粒度,使用句式对齐模型中的第一循环神经网络和注意力机制得到目标文本的子句特征信息,以及再以子句为粒度,使用句式对齐模型中的第二循环神经网络和注意力机制得到目标文本的句式特征信息;然后根据前述得到的子句特征信息和句式特征信息,通过句式对齐模型对目标推荐文本包括的词语和子句进行对齐处理,进而得到重组后的目标推荐文本,由于是根据用户选中文本的子句特征信息和句式特征信息进行重组处理的,所以可以得到与用户选中文本近似或者相同的句式结构,例如图12所示的,重组后的目标推荐文本,即“我想依靠你的光确认我的存在”大致是“主+谓(动词)+宾语”的句式结构,这与用户选中文本(即“我喜欢你”)的句式结构是大致相同的。
具体来说,可以用词语对齐工具(例如GIZA++)对平行句对(即用户选中文本和目标推荐文本对组成的句子对)进行词对齐,其中,用户选中文本又可以称作源文本,目标推荐语料又可以称作目标对齐文本,进而将用户选中文本和目标推荐文本进行分词处理和子句处理,进而得到用户选中文本和目标推荐文本分别对应的单词序列和子句序列,方便以“词-子句-句子”的深度学习模型(例如称作句式对齐模型)提取。
进一步地可以单词为单位,使用深度学习模型中的底层循环神经网络编码得到用户选中文本的子句的句式表示,在其中可以采用底层注意力机制致力于子句内部的词级别对齐;以及,同时以子句为单位,使用深度学习模型中的上层循环神经网络得到用户选中文本的整个句子的句式表示,在其中可以采用上层注意力机制则致力于子句级别的对齐。
然后根据用户选中文本的词级别对齐信息和子句级别的对齐信息,再利用深度学习模型结合目标推荐文本的单词序列和子句序列进行相同的深度学习,进而可以将目标推荐文本转换成与用户选中文本近似或者相同的句式结构,该句式结构不仅包括词语之间的对齐还包括子句之间的对齐,基于注意力机制得到的句式结构调整结果是尽量结合上下文语义进行的句式结构的调整,这样的重组效果更好。
步骤808:推荐重组后的目标推荐文本。
步骤809:在不满足预设重组条件时,将选择出的目标推荐文本直接推荐。
无论是否重组,将最终得到的目标推荐文本向用户进行推荐,例如直接显示给用户或者直接语音播放给用户。
进一步地,参见图11中的b图所示,在将目标推荐文本展示给用户之后,用户还可以点击页面中展示的“换口吻”的控件以改变目标推荐集合,进而触发系统进行其它的推荐。例如,用户还可以点击其中的“喇叭”控件以控制设备将目标推荐文本进行语音播放,例如可以选择以用户习惯的方言(例如普通话、闽南语、粤语或者四川话)进行语音播放;例如,用户可以点击其中的“文档”控件实现对目标推荐文本的直接复制;再例如,用户还可以点击其中的“笔”控件来手动对显示的目标推荐文件进行修改或者二次加工,在修改或者二次加工之后再复制后粘贴到自己当前写作的地方,这样,写作平台通过关联推荐的方式可以帮助用户更好地表达自己,提升用户的写作技巧和能力。
本申请实施例提供的语义识别方法,在模型训练阶段将文本关联对应的注释信息考虑在内,这样不仅可以得到文本的字面语义,更能够通过注释信息得到文本的字面意思之下的潜在语义,并且由于注释信息是用户更为真实、直接的语义表达,所以在包括注释信息时是将注释信息作为语义表达的识别依据,进而在基于这样的方式训练得到的语义识别模型进行语义识别时,对于中文委婉、含蓄、隐晦的常规表达方式,能够更为准确地提取到文本真实的潜在语义,进而提升文本语义识别的准确性和有效性。
本申请实施例加入了AI领域的自NPL技术,使得语义识别更加人性化,提供的帮助对使用者来说更因地制宜,人机交互越来越简化的同时,越来越精准和高质量。通过机器学习自动、准确地掌握用户的语义,对目前网络上大量的数据源进行有用性筛选,而不是将很多无用和不符合用户预期的信息堆积在用户面前,需要人手动去寻找可用线索,去思索这些信息和自己的信息的融合方式,增强了用户的使用体验。
基于同一发明构思,请参见图13所示,本申请实施例还提供一种处理语料的方法,该方法例如可以由前述图2-图3中的任一终端设备执行,该终端设备提供基于语义进行语料关联推荐的功能。图13的流程描述如下。
步骤1301:根据第一预定操作,确定目标文本。
例如,参考前述图9所示的例子,用户在写作的过程中,可以利用终端设备的语料推荐功能进行文本推荐,以便于提高所写作的文档的可读性。例如,用户可以进行点击并选择“我喜欢你”的第一预定操作,终端设备在检测到第一预定操作之后,即可以将用户所点击并选择的“我喜欢你”作为需要进行语义关联推荐的基础文本,在本申请实施例中例如称作目标文本。在具体实施过程中,第一预定操作例如还可以是声控操作,或者可以是手势操作,或者可以是输入操作,等等,本申请实施例对此不作限制。
步骤1302:获得与目标文本对应的关联推荐文本,其中,该关联推荐文本的语义特征与该目标文本的语义特征满足预设关联关系。
在具体实施过程中,可以采用前述图6和图8对应实施例中介绍的方法来识别目标文本的语义特征,并且确定与目标文本的语义特征具有预设关联关系(例如语义相同或者语义相反)的关联语义特征,进而将具有关联语义特征的文本作为关联推荐文本进行关联推荐。在具体实施过程中,用于识别文本的语义特征的语义识别模型可以部署在终端设备中,这样可以由终端设备自身进行语义识别并进行关联推荐文本的选择,在另一种可能的实施方式中,用于识别文本的语义特征的语义识别模型可能部署在为终端设备提供文本推荐的后台服务器中,这样,可以由后台服务器进行相关的语义识别并进行对应的文本关联推荐。
在推荐系统中,可以预先将语料推荐池中的待推荐语料划分为多个类别,为便于索引,可以为每个类别定义一个语料分类选项,例如可以按照文学风格划分为诗歌、散文、说明文、文艺等语料分类选项,或者可以按照推荐语料的作者划分为多个语料分类选项,或者可以按照领域划分为娱乐、科技、文学等多个语料分类选项,等等,每个语料分类选项可以从一个描述维度对文本进行相应描述,当然,一个文本可以同时属于多种语料分类选项。在获得关联推荐文本之前,用户可以根据自己的实际写作场景(例如发表论文或者是小说投稿或者是个人社交账户发布)的需求或者撰写偏好,从多个语料分类选项中选择出用于本次关联推荐的目标语料分类选项,例如图9中的d图所示的,用户可以进行例如点击“文艺”这种语料分类选项的第二预定操作,终端设备可以根据检测到的第二预定操作确定出用户所选中的目标语料分类选项,进而,系统在进行语义关联推荐时,则会同时结合用户所选择的目标语料分类选项来进行关联推荐,以在满足语义关联推荐的同时,还可以满足用户的实际撰写需求。
在具体实施过程中,系统所定义的多个语料分类选项可以包括至少两级选择列表,如图9中的d图所示的“文风”为一级选择列表,“口吻”为另一级选择列表,通过多级选择列表可以对待推荐语料进行更为细致的维度划分,这样用户在选择目标语料分类选项时可以进行更为细粒度的选择,进而缩小语料的推荐范围,以实现更为精准的推荐,进而提高推荐的有效性。具体来说,用户在通过第二预定操作选择目标语料分类选项时,可以从所有选择列表或者部分选择列表中的每个选择列表中分别选择一个语料分类选项,终端设备可以将用户选择出的所有语料分类选项确定为最终的目标语料分类选项,进而根据选择出的所有目标语料分类选项进行适配的文本关联推荐。
步骤1303:输出关联推荐文本。
无论采用上述的何种方式获得与目标文本对应的关联推荐文本之后,为了便于用户能够及时获知和利用这些关联推荐文本,终端设备可以将获得的关联推荐文本进行输出。例如图14所示的,可以将得到的关联推荐文本(即“我想依靠你的光确认我的存在”)在预定显示区域中进行展示,图14中是以预定显示区域为终端设备的显示界面的下半部分区域为例进行示意性说明。另外一种可能的输出方式是,可以将关联推荐文本进行语音播放,这样便于用户能够直接听到关联推荐文本,以便于视力不好(例如盲人或者老人)能够准确获知到系统的推荐。具体来说,例如可以预定口音类型来进行语音播放,其中,预定口音类型可以是终端设备系统自带的口音类型,例如普通话,或者也可以是用户按照自己的实际需求预先设置的口音类型,例如东北口音或者四川话口音,等等,这样可以便于不同用户能够以自己熟悉的口音准确地获知到系统的推荐。
在如图14所示的将关联推荐文本显示在终端设备的界面中后,在图14所示的预定显示区域中(或者其它区域)可以同时显示几个控件图标,如图14中的预定显示区域的右下方的“文档”、“广播”、“笔”这三个控件图标。
其中,“广播”控件图标是用于触发对关联推荐文本进行语音播放的图标,例如图15所示的,当用户在进行例如点击“广播”图标的第五预定操作之后,则触发显示包括多种口音类型的显示界面,如图15中右图所示的包括“普通话”、“粤语”、“四川话”、“上海话”、“河南话”、“东北话”等多种口音类型,进一步地,用户可以选择其中某一种口音类型作为目标口音类型,进而终端设备可以采用该目标口音类型来语音播放显示的关联推荐文本。这样,用户可以选择自己熟悉的口音来对推荐的文本进行语音播放,以获得自己的熟悉的方言所带来的文字上的情感体会,或者可以以其它自己并不熟悉的方言来播放,以得到更多的听觉乐趣,增强推荐平台的趣味性,进而便于提高用户的使用率和使用粘度。
“文档”控件图标可以用于对推荐的文本直接进行复制,用户进行了例如点击“文档”控件图标的第三预定操作,系统则可以直接将关联推荐文本进行复制,并且输入到与目标文本具有预定位置关系的输入区域中,例如图16所示的直接输入到目标文本相邻的所有文本的后面,从而实现文本的自动连续输入,以省去用户再通过手动录入的方式进行文档输入,提高了写作效率。
“笔”控件图标可以用于对推荐的文本进行编辑,即可以进行二次创造,例如,用户可以针对“笔”这个控件图标进行例如点击的第四预定操作,基于第四预定操作的触发,终端设备可以将输入光标跳转到预定显示区域中显示的关联推荐文本中,进而用户可以根据自己的实际需求对关联推荐文本进行语序重组,或者可以删除以及添加一些文本内容,进而得到编辑后的关联推荐文本,终端设备再将编辑得到的关联推荐文本自动输入到与目标文本具有预定位置关系的输入区域中,例如图16所示的直接输入到目标文本相邻的所有文本的后面,从而实现文本的自动连续输入,以省去用户再通过手动录入的方式进行文档输入,提高了写作效率。
基于同一发明构思,本申请实施例提供一种处理语料的装置,该处理语料的装置可以是硬件结构、软件模块、或硬件结构加软件模块。该处理语料的装置例如是前述图2-图3中的任一终端设备或服务器,或者可以是设置于终端设备或服务器中的功能装置。请参见图17所示,本申请实施例中的处理语料的装置包括确定模块1701、分词模块1702、词向量模块1703和语义识别模块1704,其中:
确定模块1701,用于确定需进行语义识别的目标文本;
分词模块1702,用于对目标文本进行分词处理,以获得所述目标文本包括的多个词语;
词向量模块1703,用于对每个词语进行词向量处理,以获得目标文本对应的词向量序列;
语义识别模块1704,用于将词向量序列输入预先训练的语义识别模型,以通过语义识别模型确定目标文本对应的目标语义特征;其中,语义识别模型是根据多个标注了语义标签的文本训练样本训练得到的,多个文本训练样本中包括第一类文本训练样本和第二类文本训练样本,第一类文本训练样本根据文本自身包括的语义关键词确定对应的语义标签,第二类文本训练样本根据文本关联的注释信息确定对应的语义标签。
在一种可能的实施方式中,继续参见图17所示,本申请实施例中的处理语料的装置还包括模型训练模块1705,用于:
获得多个第一类文本训练样本,以及获得多个第二类文本训练样本和每个第二类文本训练样本对应关联的注释信息;
根据第一类文本训练样本包括的语义关键词或者语义关键词对应的同义关键词确定对应的语义标签,以及根据第二类文本训练样本对应的注释信息包括的语义关键词或者语义关键词对应的同义关键词确定对应的语义标签;
对每个第一类文本训练样本和第二类文本训练样本进行词向量处理,以得到每个文本训练样本对应的词向量序列;
根据每个训练样本对应的词向量序列和语义标签,对初始的语义识别模型进行训练,以得到训练后的语义识别模型。
在一种可能的实施方式中,第二类文本训练样本包括不一致样本和模糊型样本;其中,不一致样本为文本自身包括的语义关键词和对应的注释信息中包括的语义关键词所表达的语义不一致的文本训练样本;模糊型样本为文本自身和对应的注释信息中均不包括用于表达预定语义的语义关键词的文本训练样本。
在一种可能的实施方式中,继续参见图17所示,本申请实施例中的处理语料的装置还包括关联推荐模块1706,用于:
确定与目标语义特征满足预设关联关系的关联语义特征;
从语料推荐池中确定具有关联语义特征的文本作为候选推荐文本;其中,语料推荐池中的每条语料的语义特征是通过语义识别模型确定的;
根据候选推荐文本进行与目标文本对应关联的文本推荐。
在一种可能的实施方式中,关联推荐模块1706用于:
将目标语义特征、与目标语义特征语义相同或相近的语义特征确定为关联语义特征;或者,
将与目标语义特征语义相反的语义特征确定为关联语义特征。
在一种可能的实施方式中,关联推荐模块1706用于:
从候选推荐文本中确定满足预设推荐条件的目标推荐文本;
调整目标推荐文本所包括的词语的排列顺序,得到重组后的目标推荐文本,其中,重组后的目标推荐文本与重组前的目标推荐文本的语义一致;
将重组后的目标推荐文本进行推荐。
在一种可能的实施方式中,关联推荐模块1706用于:
确定目标文本的句式结构;
按照目标文本的句式结构调整目标推荐文本所包括的词语的排列顺序,以使得重组后的目标推荐文本与目标文本的句式结构相同。
在一种可能的实施方式中,关联推荐模块1706用于:
确定包括目标文本在内相邻的至少两个句子的句式结构是否相同;
若相同,则按照目标文本的句式结构调整目标推荐文本所包括的词语的排列顺序。
在一种可能的实施方式中,关联推荐模块1706用于:
将目标文本进行分词处理和子句处理,以得到目标文本的单词序列和子句序列;
以单词为粒度,使用句式对齐模型中的第一循环神经网络和注意力机制得到目标文本的子句特征信息;
以子句为粒度,使用句式对齐模型中的第二循环神经网络和注意力机制得到目标文本的句式特征信息;
根据子句特征信息和句式特征信息,利用句式对齐模型对目标推荐文本包括的词语和子句进行对齐处理。
在一种可能的实施方式中,关联推荐模块1706用于:
确定目标推荐集合,其中,按照多个文本描述维度将语料推荐池包括的所有语料划分为对应的多个推荐集合;
将目标推荐集合中具有关联语义特征的文本作为候选推荐文本。
在一种可能的实施方式中,关联推荐模块1706用于:
响应针对目标推荐集合的选择操作,以确定目标推荐集合;或者,
根据用户对于推荐集合的历史选择信息,确定目标推荐集合;或者,
确定目标文本的发布平台,并根据发布平台的类型确定目标推荐集合;或者,
将推荐频率最高的推荐集合确定为目标推荐集合。
需要说明的是,图17中的模型训练模块1705和关联推荐模块1706由于不是必须的,所以在图17中这两个模块是以虚线表示的。
前述图6对应的处理语料的方法的实施例中涉及的各步骤的所有相关内容均可以援引到本申请施例中的处理语料的装置所对应的功能模块的功能描述,在此不再赘述。
基于同一发明构思,本申请实施例提供另一种处理语料的装置,该处理语料的装置可以是硬件结构、软件模块、或硬件结构加软件模块。该处理语料的装置例如是前述图2-图3中的任一终端设备器,或者可以是设置于终端设备中的功能装置。请参见图18所示,本申请实施例中的处理语料的装置包括第一确定模块1801、获得模块1802和输出模块1803,其中:
确定模块1801,用于根据第一预定操作,确定目标文本;
获得模块1802,用于获得与目标文本对应的关联推荐文本,其中,关联推荐文本的语义特征与目标文本的语义特征满足预设关联关系;
输出模块1803,用于输出关联推荐文本。
在一种可能的实施方式中,参见图18所示,本申请实施例中的处理语料的装置还包括第二确定模块1804,用于:
在获得模块1802获得与目标文本对应的关联推荐文本之前,根据第二预定操作,从多个语料分类选项中确定目标语料分类选项,其中,每个语料分类选项用于从一个描述维度对文本进行描述;
获得模块1802,用于获得与目标文本对应且符合目标语料分类选项的关联推荐文本。
在一种可能的实施方式中,多个语料分类选项包括至少两级选择列表;第二确定模块1804用于:
根据第二预定操作,从至少两级选择列表的所有选择列表或者部分列表中的每个选择列表中分别选择一个语料分类选项,并将选择出的所有语料分类选项确定为目标语料分类选项。
在一种可能的实施方式中,输出模块1803用于:
在预定展示区域显示关联推荐文本;或者,
播放关联推荐文本。
在一种可能的实施方式中,参见图18所示,本申请实施例中的处理语料的装置还包括输入模块1805,用于:
根据针对关联推荐文本的第三预定操作,将关联推荐文本输入到与目标文本具有预定位置关系的输入区域中;或者,
根据针对关联推荐文本的第四预定操作,对关联推荐文本进行编辑,并将编辑后的关联推荐文本输入到与目标文本具有预定位置关系的输入区域中。
在一种可能的实施方式中,参见图18所示,本申请实施例中的处理语料的装置还包括第三确定模块1806,用于:
在输出模块1803在预定展示区域显示关联推荐文本之后,根据第五预定操作,确定目标口音类型;
输出模块1803,用于以目标口音类型播放关联推荐文本。
需要说明的是,图18中的第二确定模块1804、输入模块1805和第三确定模块1806由于不是必须的,所以在图18中这三个模块是以虚线表示的。
前述图13对应的处理语料的方法的实施例中涉及的各步骤的所有相关内容均可以援引到本申请施例中的处理语料的装置所对应的功能模块的功能描述,在此不再赘述。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
基于同一发明构思,本申请实施例提供一种计算设备,该计算设备例如是前述图2和图3中的任一终端设备或服务器,如图19所示,本申请实施例中的计算设备包括至少一个处理器1901,以及与至少一个处理器1901连接的存储器1902和通信接口1903,本申请实施例中不限定处理器1901与存储器1902之间的具体连接介质,图19中是以处理器1901和存储器1902之间通过总线1900连接为例,总线1900在图19中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1900可以分为地址总线、数据总线、控制总线等,为便于表示,图19中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,存储器1902存储有可被至少一个处理器1901执行的指令,至少一个处理器1901通过执行存储器1902存储的指令,可以执行前述的全链路性能测试方法中所包括的步骤。
其中,处理器1901是计算设备的控制中心,可以利用各种接口和线路连接整个计算设备的各个部分,通过运行或执行存储在存储器1902内的指令以及调用存储在存储器1902内的数据,计算设备的各种功能和处理数据,从而对计算设备进行整体监控。可选的,处理器1901可包括一个或多个处理模块,处理器1901可集成应用处理器和调制解调处理器,其中,处理器1901主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1901中。在一些实施例中,处理器1901和存储器1902可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1901可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1902作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1902可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1902是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1902还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通信接口1903是能够用于进行通信的传输接口,可以通过通信接口1903接收数据或者发送数据,例如可以通过通信接口1903与其它设备进行数据交互以实现通信的目的。
进一步地,该计算设备还包括帮助计算设备内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1904、用于存储操作系统1905、应用程序1906和其他程序模块1907的大容量存储设备1908。
基本输入/输出系统1904包括有用于显示信息的显示器1909和用于用户输入信息的诸如鼠标、键盘之类的输入设备1910。其中显示器1909和输入设备1910都通过连接到系统总线1900的基本输入/输出系统1904连接到处理器1901。所述基本输入/输出系统1904还可以包括输入输出控制器以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1908通过连接到系统总线1900的大容量存储控制器(未示出)连接到处理器1901。所述大容量存储设备1908及其相关联的计算机可读介质为该服务器包提供非易失性存储。也就是说,大容量存储设备1908可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
根据本申请的各种实施例,该计算设备包还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即该计算设备可以通过连接在所述系统总线1900上的通信接口1903连接到网络1911,或者说,也可以使用通信接口1903来连接到其他类型的网络或远程计算机系统(未示出)。
基于同一发明构思,本申请实施例还提供一种存储介质,该存储介质可以是计算机可读存储介质,该存储介质中存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如前述的处理语料的方法的步骤。
基于同一发明构思,本申请实施例还提供一种芯片系统,该芯片系统包括处理器,还可以包括存储器,用于实现如前述的处理语料的方法的步骤。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
在一些可能的实施方式中,本申请实施例提供的处理语料的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机上运行时,所述程序代码用于使所述计算机执行前文所描述的根据本申请各种示例性实施方式的处理语料的方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种处理语料的方法,其特征在于,所述方法包括:
确定需进行语义识别的目标文本;
对所述目标文本进行分词处理,以获得所述目标文本包括的多个词语;
对每个词语进行词向量处理,以获得所述目标文本对应的词向量序列;
将所述词向量序列输入预先训练的语义识别模型,以通过所述语义识别模型确定所述目标文本对应的目标语义特征;其中,所述语义识别模型是根据多个标注了语义标签的文本训练样本训练得到的,多个文本训练样本中包括第一类文本训练样本和第二类文本训练样本,所述第一类文本训练样本根据文本自身包括的语义关键词确定对应的语义标签,所述第二类文本训练样本根据文本关联的注释信息确定对应的语义标签。
2.如权利要求1所述的方法,其特征在于,所述语义识别模型通过以下方式训练得到:
获得多个第一类文本训练样本,以及获得多个第二类文本训练样本和每个第二类文本训练样本对应关联的注释信息;
根据第一类文本训练样本包括的语义关键词或者语义关键词对应的同义关键词确定对应的语义标签,以及根据第二类文本训练样本对应的注释信息包括的语义关键词或者语义关键词对应的同义关键词确定对应的语义标签;
对每个第一类文本训练样本和第二类文本训练样本进行词向量处理,以得到每个文本训练样本对应的词向量序列;
根据每个训练样本对应的词向量序列和语义标签,对初始的语义识别模型进行训练,以得到训练后的语义识别模型。
3.如权利要求1所述的方法,其特征在于,所述第二类文本训练样本包括不一致样本和模糊型样本;其中,所述不一致样本为文本自身包括的语义关键词和对应的注释信息中包括的语义关键词所表达的语义不一致的文本训练样本;所述模糊型样本为文本自身和对应的注释信息中均不包括用于表达预定语义的语义关键词的文本训练样本。
4.如权利要求1-3任一所述的方法,其特征在于,所述方法还包括:
确定与所述目标语义特征满足预设关联关系的关联语义特征;
从语料推荐池中确定具有所述关联语义特征的文本作为候选推荐文本;其中,所述语料推荐池中的每条语料的语义特征是通过所述语义识别模型确定的;
根据所述候选推荐文本进行与所述目标文本对应关联的文本推荐。
5.如权利要求4所述的方法,其特征在于,确定与所述目标语义特征满足预设关联关系的关联语义特征,包括:
将所述目标语义特征、与所述目标语义特征语义相同或相近的语义特征确定为所述关联语义特征;或者,
将与所述目标语义特征语义相反的语义特征确定为所述关联语义特征。
6.如权利要求4所述的方法,其特征在于,根据所述候选推荐文本进行与所述目标文本对应关联的文本推荐,包括:
从所述候选推荐文本中确定满足预设推荐条件的目标推荐文本;
调整所述目标推荐文本所包括的词语的排列顺序,得到重组后的目标推荐文本,其中,重组后的目标推荐文本与重组前的目标推荐文本的语义一致;
将重组后的目标推荐文本进行推荐。
7.如权利要求6所述的方法,其特征在于,调整所述目标推荐文本所包括的词语的排列顺序,包括:
确定所述目标文本的句式结构;
按照所述目标文本的句式结构调整所述目标推荐文本所包括的词语的排列顺序,以使得重组后的目标推荐文本与所述目标文本的句式结构相同。
8.如权利要求7所述的方法,其特征在于,按照所述目标文本的句式结构调整所述目标推荐文本所包括的词语的排列顺序,包括:
确定包括所述目标文本在内相邻的至少两个句子的句式结构是否相同;
若相同,则按照所述目标文本的句式结构调整所述目标推荐文本所包括的词语的排列顺序。
9.如权利要求7所述的方法,其特征在于,按照所述目标文本的句式结构调整所述目标推荐文本所包括的词语的排列顺序,包括:
将所述目标文本进行分词处理和子句处理,以得到所述目标文本的单词序列和子句序列;
以单词为粒度,使用句式对齐模型中的第一循环神经网络和注意力机制得到所述目标文本的子句特征信息;
以子句为粒度,使用所述句式对齐模型中的第二循环神经网络和注意力机制得到所述目标文本的句式特征信息;
根据所述子句特征信息和所述句式特征信息,利用所述句式对齐模型对所述目标推荐文本包括的词语和子句进行对齐处理。
10.如权利要求4所述的方法,其特征在于,从语料推荐池中确定具有所述关联语义特征的文本作为候选推荐文本,包括:
确定目标推荐集合,其中,按照多个文本描述维度将所述语料推荐池包括的所有语料划分为对应的多个推荐集合;
将所述目标推荐集合中具有所述关联语义特征的文本作为所述候选推荐文本。
11.如权利要求10所述的方法,其特征在于,确定目标推荐集合,包括:
响应针对所述目标推荐集合的选择操作,以确定所述目标推荐集合;或者,
根据用户对于推荐集合的历史选择信息,确定所述目标推荐集合;或者,
确定所述目标文本的发布平台,并根据所述发布平台的类型确定所述目标推荐集合;或者,
将推荐频率最高的推荐集合确定为所述目标推荐集合。
12.一种处理语料的方法,其特征在于,所述方法包括:
根据第一预定操作,确定目标文本;
获得与所述目标文本对应的关联推荐文本,其中,所述关联推荐文本的语义特征与所述目标文本的语义特征满足预设关联关系;
输出所述关联推荐文本。
13.如权利要求12所述的方法,其特征在于,在获得与所述目标文本对应的关联推荐文本之前,所述方法还包括:
根据第二预定操作,从多个语料分类选项中确定目标语料分类选项,其中,每个语料分类选项用于从一个描述维度对文本进行描述;
则,获得与所述目标文本对应的关联推荐文本,包括:
获得与所述目标文本对应且符合所述目标语料分类选项的关联推荐文本。
14.如权利要求12所述的方法,其特征在于,输出所述关联推荐文本,包括:
在预定展示区域显示所述关联推荐文本;或者,
语音播放所述关联推荐文本。
15.如权利要求14所述的方法,其特征在于,所述方法还包括:
根据针对所述关联推荐文本的第三预定操作,将所述关联推荐文本输入到与所述目标文本具有预定位置关系的输入区域中;或者,
根据针对所述关联推荐文本的第四预定操作,对所述关联推荐文本进行编辑,并将编辑后的关联推荐文本输入到与所述目标文本具有预定位置关系的输入区域中。
CN201910987149.6A 2019-10-17 2019-10-17 一种处理语料的方法 Active CN110717017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910987149.6A CN110717017B (zh) 2019-10-17 2019-10-17 一种处理语料的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910987149.6A CN110717017B (zh) 2019-10-17 2019-10-17 一种处理语料的方法

Publications (2)

Publication Number Publication Date
CN110717017A true CN110717017A (zh) 2020-01-21
CN110717017B CN110717017B (zh) 2022-04-19

Family

ID=69212736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910987149.6A Active CN110717017B (zh) 2019-10-17 2019-10-17 一种处理语料的方法

Country Status (1)

Country Link
CN (1) CN110717017B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460169A (zh) * 2020-03-27 2020-07-28 科大讯飞股份有限公司 语义表达式生成方法、装置及设备
CN111695359A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN111753552A (zh) * 2020-07-02 2020-10-09 浙江百应科技有限公司 一种基于nlp的训练模式与识别模式动态切换的方法
CN111753498A (zh) * 2020-08-10 2020-10-09 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN112151080A (zh) * 2020-10-28 2020-12-29 成都启英泰伦科技有限公司 一种录制和处理训练语料的方法
CN112307337A (zh) * 2020-10-30 2021-02-02 中国平安人寿保险股份有限公司 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN112380848A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本生成方法、装置、设备及存储介质
CN112465555A (zh) * 2020-12-04 2021-03-09 北京搜狗科技发展有限公司 一种广告信息推荐的方法及相关装置
CN112528605A (zh) * 2020-11-11 2021-03-19 北京百度网讯科技有限公司 文本风格处理方法、装置、电子设备和存储介质
CN112530437A (zh) * 2020-11-18 2021-03-19 北京百度网讯科技有限公司 语义识别方法、装置、设备以及存储介质
CN112560462A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 事件抽取服务的生成方法、装置、服务器以及介质
CN112562665A (zh) * 2020-11-30 2021-03-26 武汉海昌信息技术有限公司 一种基于信息交互的语音识别方法、存储介质及系统
CN112784048A (zh) * 2021-01-26 2021-05-11 海尔数字科技(青岛)有限公司 对用户问题进行情感分析的方法、装置、设备及存储介质
CN112800248A (zh) * 2021-01-19 2021-05-14 天河超级计算淮海分中心 相似病例检索方法、装置、计算机设备及存储介质
CN112836492A (zh) * 2021-01-30 2021-05-25 云知声智能科技股份有限公司 一种医疗项目名称对齐方法
CN112948677A (zh) * 2021-02-26 2021-06-11 上海携旅信息技术有限公司 基于点评美感度的推荐理由确定方法、系统、设备及介质
CN112949285A (zh) * 2020-10-13 2021-06-11 广州市百果园网络科技有限公司 语句文本检测方法、系统、电子设备及存储介质
CN113495949A (zh) * 2020-03-18 2021-10-12 北京沃东天骏信息技术有限公司 文本识别的方法、系统、计算机系统及介质
CN113591469A (zh) * 2021-06-15 2021-11-02 杭州费尔斯通科技有限公司 一种基于词语解释的文本增强的方法和系统
CN113807512A (zh) * 2020-06-12 2021-12-17 株式会社理光 机器阅读理解模型的训练方法、装置及可读存储介质
CN113887245A (zh) * 2021-12-02 2022-01-04 腾讯科技(深圳)有限公司 一种模型训练方法及相关装置
CN115249017A (zh) * 2021-06-23 2022-10-28 马上消费金融股份有限公司 文本标注方法、意图识别模型的训练方法及相关设备
CN114817469B (zh) * 2022-04-27 2023-08-08 马上消费金融股份有限公司 文本增强方法、文本增强模型的训练方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153318A1 (en) * 2008-11-19 2010-06-17 Massachusetts Institute Of Technology Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN104516986A (zh) * 2015-01-16 2015-04-15 青岛理工大学 一种语句识别方法及装置
WO2016068690A1 (en) * 2014-10-27 2016-05-06 Mimos Berhad Method and system for automated semantic parsing from natural language text
CN107577737A (zh) * 2017-08-25 2018-01-12 北京百度网讯科技有限公司 用于推送信息的方法和装置
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN108563653A (zh) * 2017-12-21 2018-09-21 清华大学 一种用于知识图谱中知识获取模型的构建方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100153318A1 (en) * 2008-11-19 2010-06-17 Massachusetts Institute Of Technology Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
WO2016068690A1 (en) * 2014-10-27 2016-05-06 Mimos Berhad Method and system for automated semantic parsing from natural language text
CN104516986A (zh) * 2015-01-16 2015-04-15 青岛理工大学 一种语句识别方法及装置
CN107577737A (zh) * 2017-08-25 2018-01-12 北京百度网讯科技有限公司 用于推送信息的方法和装置
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN108563653A (zh) * 2017-12-21 2018-09-21 清华大学 一种用于知识图谱中知识获取模型的构建方法及系统

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495949A (zh) * 2020-03-18 2021-10-12 北京沃东天骏信息技术有限公司 文本识别的方法、系统、计算机系统及介质
CN111460169A (zh) * 2020-03-27 2020-07-28 科大讯飞股份有限公司 语义表达式生成方法、装置及设备
CN111695359B (zh) * 2020-06-12 2023-10-03 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN113807512B (zh) * 2020-06-12 2024-01-23 株式会社理光 机器阅读理解模型的训练方法、装置及可读存储介质
CN111695359A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN113807512A (zh) * 2020-06-12 2021-12-17 株式会社理光 机器阅读理解模型的训练方法、装置及可读存储介质
CN111753552B (zh) * 2020-07-02 2024-04-19 浙江百应科技有限公司 一种基于nlp的训练模式与识别模式动态切换的方法
CN111753552A (zh) * 2020-07-02 2020-10-09 浙江百应科技有限公司 一种基于nlp的训练模式与识别模式动态切换的方法
CN111930942B (zh) * 2020-08-07 2023-08-15 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN111753498B (zh) * 2020-08-10 2024-01-26 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN111753498A (zh) * 2020-08-10 2020-10-09 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN112949285B (zh) * 2020-10-13 2024-04-05 广州市百果园网络科技有限公司 语句文本检测方法、系统、电子设备及存储介质
CN112949285A (zh) * 2020-10-13 2021-06-11 广州市百果园网络科技有限公司 语句文本检测方法、系统、电子设备及存储介质
CN112151080A (zh) * 2020-10-28 2020-12-29 成都启英泰伦科技有限公司 一种录制和处理训练语料的方法
CN112151080B (zh) * 2020-10-28 2021-08-03 成都启英泰伦科技有限公司 一种录制和处理训练语料的方法
CN112307337B (zh) * 2020-10-30 2024-04-12 中国平安人寿保险股份有限公司 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN112307337A (zh) * 2020-10-30 2021-02-02 中国平安人寿保险股份有限公司 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN112528605A (zh) * 2020-11-11 2021-03-19 北京百度网讯科技有限公司 文本风格处理方法、装置、电子设备和存储介质
CN112528605B (zh) * 2020-11-11 2024-01-16 北京百度网讯科技有限公司 文本风格处理方法、装置、电子设备和存储介质
CN112530437A (zh) * 2020-11-18 2021-03-19 北京百度网讯科技有限公司 语义识别方法、装置、设备以及存储介质
CN112530437B (zh) * 2020-11-18 2023-10-20 北京百度网讯科技有限公司 语义识别方法、装置、设备以及存储介质
CN112380848A (zh) * 2020-11-19 2021-02-19 平安科技(深圳)有限公司 文本生成方法、装置、设备及存储介质
CN112380848B (zh) * 2020-11-19 2022-04-26 平安科技(深圳)有限公司 文本生成方法、装置、设备及存储介质
CN112562665A (zh) * 2020-11-30 2021-03-26 武汉海昌信息技术有限公司 一种基于信息交互的语音识别方法、存储介质及系统
CN112465555B (zh) * 2020-12-04 2024-05-14 北京搜狗科技发展有限公司 一种广告信息推荐的方法及相关装置
CN112465555A (zh) * 2020-12-04 2021-03-09 北京搜狗科技发展有限公司 一种广告信息推荐的方法及相关装置
CN112560462B (zh) * 2020-12-11 2023-08-01 北京百度网讯科技有限公司 事件抽取服务的生成方法、装置、服务器以及介质
CN112560462A (zh) * 2020-12-11 2021-03-26 北京百度网讯科技有限公司 事件抽取服务的生成方法、装置、服务器以及介质
CN112800248A (zh) * 2021-01-19 2021-05-14 天河超级计算淮海分中心 相似病例检索方法、装置、计算机设备及存储介质
CN112800248B (zh) * 2021-01-19 2022-08-05 天河超级计算淮海分中心 相似病例检索方法、装置、计算机设备及存储介质
CN112784048B (zh) * 2021-01-26 2023-03-28 海尔数字科技(青岛)有限公司 对用户问题进行情感分析的方法、装置、设备及存储介质
CN112784048A (zh) * 2021-01-26 2021-05-11 海尔数字科技(青岛)有限公司 对用户问题进行情感分析的方法、装置、设备及存储介质
CN112836492A (zh) * 2021-01-30 2021-05-25 云知声智能科技股份有限公司 一种医疗项目名称对齐方法
CN112836492B (zh) * 2021-01-30 2024-03-08 云知声智能科技股份有限公司 一种医疗项目名称对齐方法
CN112948677B (zh) * 2021-02-26 2023-11-03 上海携旅信息技术有限公司 基于点评美感度的推荐理由确定方法、系统、设备及介质
CN112948677A (zh) * 2021-02-26 2021-06-11 上海携旅信息技术有限公司 基于点评美感度的推荐理由确定方法、系统、设备及介质
CN113591469A (zh) * 2021-06-15 2021-11-02 杭州费尔斯通科技有限公司 一种基于词语解释的文本增强的方法和系统
CN115249017B (zh) * 2021-06-23 2023-12-19 马上消费金融股份有限公司 文本标注方法、意图识别模型的训练方法及相关设备
CN115249017A (zh) * 2021-06-23 2022-10-28 马上消费金融股份有限公司 文本标注方法、意图识别模型的训练方法及相关设备
CN113887245B (zh) * 2021-12-02 2022-03-25 腾讯科技(深圳)有限公司 一种模型训练方法及相关装置
CN113887245A (zh) * 2021-12-02 2022-01-04 腾讯科技(深圳)有限公司 一种模型训练方法及相关装置
CN114817469B (zh) * 2022-04-27 2023-08-08 马上消费金融股份有限公司 文本增强方法、文本增强模型的训练方法及装置

Also Published As

Publication number Publication date
CN110717017B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN110717017B (zh) 一种处理语料的方法
Bragg et al. Sign language recognition, generation, and translation: An interdisciplinary perspective
CN111191078B (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN109753566B (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
CN109844708B (zh) 通过聊天机器人推荐媒体内容
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN110301117B (zh) 用于在会话中提供响应的方法和装置
WO2019100350A1 (en) Providing a summary of a multimedia document in a session
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
EP3155540A1 (en) Modeling interestingness with deep neural networks
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
CN112434142B (zh) 一种标记训练样本的方法、服务器、计算设备及存储介质
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
CN116578688A (zh) 基于多轮问答的文本处理方法、装置、设备及存储介质
CN114969282B (zh) 基于富媒体知识图谱多模态情感分析模型的智能交互方法
Deorukhkar et al. A detailed review of prevailing image captioning methods using deep learning techniques
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
Da et al. Deep learning based dual encoder retrieval model for citation recommendation
WO2021207422A1 (en) Generating cascaded text formatting for electronic documents and displays
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
Liu et al. Personalized Recommender System for Children's Book Recommendation with A Realtime Interactive Robot
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
Naik et al. Context aware conversational understanding for intelligent agents with a screen
Garg et al. Textual description generation for visual content using neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40020303

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant