CN107797985B - 建立同义鉴别模型以及鉴别同义文本的方法、装置 - Google Patents

建立同义鉴别模型以及鉴别同义文本的方法、装置 Download PDF

Info

Publication number
CN107797985B
CN107797985B CN201710890961.8A CN201710890961A CN107797985B CN 107797985 B CN107797985 B CN 107797985B CN 201710890961 A CN201710890961 A CN 201710890961A CN 107797985 B CN107797985 B CN 107797985B
Authority
CN
China
Prior art keywords
text
synonymy
pair
quantization matrix
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710890961.8A
Other languages
English (en)
Other versions
CN107797985A (zh
Inventor
范淼
孙明明
林武桃
李平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201710890961.8A priority Critical patent/CN107797985B/zh
Publication of CN107797985A publication Critical patent/CN107797985A/zh
Priority to US16/118,104 priority patent/US10776578B2/en
Application granted granted Critical
Publication of CN107797985B publication Critical patent/CN107797985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种建立同义鉴别模型以及鉴别同义文本的方法、装置,所述建立方法包括:获取训练样本中的文本对;利用词向量词典,得到所述文本对中各文本的量化矩阵;将各文本的量化矩阵作为卷积神经网络的输入,将该文本对所对应的同义标注结果作为卷积神经网络的输出,训练所述卷积神经网络,得到同义鉴别模型。鉴别同义文本的方法包括:获取待鉴别的文本对;利用词向量词典,得到所述文本对中各文本的量化矩阵;将所述各文本的量化矩阵作为同义鉴别模型的输入,根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。通过本发明所提供的技术方案,降低了对切词工具、词性分析、句子模板等辅助工具的依赖,能够提高文本对同义鉴别结果的准确性。

Description

建立同义鉴别模型以及鉴别同义文本的方法、装置
【技术领域】
本发明涉及自然语言处理技术,尤其涉及一种建立同义鉴别模型以及鉴别同义文本的方法、装置。
【背景技术】
同义句的鉴别方法一直以来都是亟待解决和提高的研究课题,其中利用计算机自动鉴别同义句的方法更是该研究课题的核心。在多种互联网应用中都需要依赖准确鉴别同义句的方法,例如,搜索引擎寻找与用户请求的查询在语义上相同或者相似的文档,或者问答平台寻找与用户所提出的新问题同义的问题的集合。但是,由于自然语言句子结构的多样性、词汇表达的多义性以及语言种类的差异性,现有技术在进行同义句鉴别时,还需要依赖例如切词工具、词性分析、句子模板提取等辅助工具进行辅助处理。因此,现有技术在同义句鉴别结果的计算准确性上会受到各种辅助工具的限制。
【发明内容】
本发明为解决技术问题所采用的技术方案是提供一种建立同义鉴别模型的方法,所述方法包括:获取训练样本中的文本对;利用词向量词典,得到所述文本对中各文本的量化矩阵;将各文本的量化矩阵作为卷积神经网络的输入,将该文本对对应的同义标注结果作为卷积神经网络的输出,训练所述卷积神经网络,得到同义鉴别模型;所述同义鉴别模型用于鉴别输入的文本对是否同义。
根据本发明一优选实施例,所述利用词向量词典得到所述文本对中各文本的量化矩阵包括:获取文本对中各文本所包含的字符;利用词向量词典分别确定各文本所包含字符的特征向量;将所述获取的特征向量进行拼接,得到所述文本对中各文本的量化矩阵。
根据本发明一优选实施例,在训练所述卷积神经网络时,包括:在卷积层按照预设步长和窗口长度,对文本的量化矩阵进行卷积处理,将得到的卷积特征构成该文本的卷积特征矩阵。
根据本发明一优选实施例,在训练所述卷积神经网络时,包括:在池化层对所述卷积特征矩阵进行多种粒度的池化处理,分别得到文本的多种粒度的语义特征。
根据本发明一优选实施例,在训练所述卷积神经网络时,包括:利用文本对中各文本对应的相同粒度的语义特征,构建所述文本对的各粒度的匹配特征向量;将所述构建的文本对的各粒度的匹配特征向量进行拼接,得到所述文本对的匹配特征。
根据本发明一优选实施例,在训练所述卷积神经网络时,包括:在全连接层将文本对的匹配特征映射至该文本对的同义标注结果,并利用映射结果与标注结果之间的误差,调整卷积神经网络的参数和所述词向量词典。
本发明为解决技术问题所采用的技术方案是提供一种建立同义鉴别模型的装置,所述装置包括:第一获取单元,用于获取训练样本中的文本对;第一量化单元,用于利用词向量词典,得到所述文本对中各文本的量化矩阵;训练单元,用于将各文本的量化矩阵作为卷积神经网络的输入,将该文本对对应的同义标注结果作为卷积神经网络的输出,训练所述卷积神经网络,得到同义鉴别模型;所述同义鉴别模型用于鉴别输入的文本对是否同义。
根据本发明一优选实施例,所述训练单元在训练所述卷积神经网络时,具体执行:在卷积层按照预设步长和窗口长度,对文本的量化矩阵进行卷积处理,将得到的卷积特征构成该文本的卷积特征矩阵。
本发明为解决技术问题所采用的技术方案是提供一种鉴别同义文本的方法,所述方法包括:获取待鉴别的文本对;利用词向量词典,得到所述文本对中各文本的量化矩阵;将所述各文本的量化矩阵作为同义鉴别模型的输入,根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。
根据本发明一优选实施例,在所述同义鉴别模型对所述各文本的量化矩阵进行处理时,包括:在卷积层按照预设步长和窗口长度,对文本的量化矩阵进行卷积处理,将得到的卷积特征构成该文本的卷积特征矩阵。
根据本发明一优选实施例,在所述同义鉴别模型对所述各文本的量化矩阵进行处理时,包括:在池化层对所述卷积特征矩阵进行多种粒度的池化处理,分别得到各文本的多种粒度的语义特征。
根据本发明一优选实施例,在所述同义鉴别模型对所述各文本的量化矩阵进行处理时,包括:利用文本对中各文本对应的相同粒度的语义特征,构建所述文本对的各粒度的匹配特征向量;将所述构建的文本对的各粒度的匹配特征向量进行拼接,得到所述文本对的匹配特征。
根据本发明一优选实施例,在所述同义鉴别模型对所述各文本的量化矩阵进行处理时,包括:在全连接层根据所述匹配特征获取该文本对的同义计算结果。
根据本发明一优选实施例,所述根据所述同义鉴别模型的输出确定文本对的同义鉴别结果包括:若所述同义计算结果满足预设阈值的要求,则该文本对的同义鉴别结果为同义句,否则不为同义句。
本发明为解决技术问题所采用的技术方案是提供一种鉴别同义文本的装置,所述装置包括:第二获取单元,用于获取待鉴别的文本对;第二量化单元,用于利用词向量词典,得到所述文本对中各文本的量化矩阵;鉴别单元,用于将所述各文本的量化矩阵作为同义鉴别模型的输入,根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。
根据本发明一优选实施例,所述同义鉴别模型对所述各文本的量化矩阵进行处理时,具体执行:在卷积层按照预设步长和窗口长度,对文本的量化矩阵进行卷积处理,将得到的卷积特征构成该文本的卷积特征矩阵。
由以上技术方案可以看出,本发明基于卷积神经网络预先建立同义鉴别模型,能够根据所输入的文本对直接获得该文本对的同义鉴别结果,降低了对切词工具、词性分析、句子模板等辅助工具的依赖,能够提高文本对同义鉴别结果的准确性。
【附图说明】
图1为本发明一实施例提供的建立同义鉴别模型的结构图。
图2为本发明一实施例提供的鉴别同义文本的方法流程图。
图3为本发明一实施例提供的建立同义鉴别模型的装置结构图。
图4为本发明一实施例提供的鉴别同义文本的装置结构图。
图5为本发明一实施例提供的计算机系统/服务器的框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
本发明的核心思想在于,如图1中所示:首先利用词向量词典获取文本对的量化矩阵;然后将量化矩阵输入预先建立的同义鉴别模型,获取该文本对的同义计算结果,具体过程如下:通过该模型的卷积层获取文本对的卷积特征矩阵;将各文本的卷积特征矩阵输入的池化层后,获取该文本对的多种粒度的语义特征(图1以及本发明实施例中以两种粒度为例);再根据语义特征构建文本对的匹配特征;将匹配特征输入全连接层后,获取该文本对的同义计算结果。通过上述方法,在鉴别文本对是否同义时,降低了对额外辅助工具的依赖,并且能够提高文本同义鉴别的准确性。
首先对建立同义鉴别模型的方法进行描述。在本发明中,同义鉴别模型为卷积神经网络模型。
具体地,可以采用如下方式预先建立得到同义鉴别模型:
(1)获取训练样本中的文本对。
在本步骤中,从训练样本中所获取的文本对还预先标注有该文本对的同义结果,即通过文本对的标注结果能够得知该文本对是否同义,若标注为1,则表明该文本对同义,若标注为0,则表明该文本对不同义。
(2)利用词向量词典,得到所述文本对中各文本的量化矩阵。
在本步骤中,首先获取文本对中各文本所包含的字符;然后利用词向量词典分别确定各文本所包含字符的特征向量,即使用词向量词典中的特征向量表示文本中所包含的字符;最后将所获取的对应各字符的特征向量进行拼接,从而得到文本对中各文本的量化矩阵。
举例来说,若所获取的文本对为P和Q,由于每个文本都是由一系列中文或者英文字符组成,则可以将每个文本看作由一系列字符组成的有序列表,例如文本P可以表示为:P=[p1,p2,...,pm],文本Q可以表示为Q=[q1,q2,...,qn]。其中,m和n分别代表文本P和Q的长度;pm表示文本P中第m个字符;qn表示文本Q中第n个字符。
在这里,以文本P进行举例说明。对于文本P来说,在词向量词典中寻找与文本P中每一个字符pi(i∈{1,2...m})一致的字符,然后将所寻找到的字符对应的特征向量映射到文本P所包含的各字符,即将文本P中的每一个字符表示为在词向量词典中该字符所对应的特征向量,再将所得到的特征向量进行拼接,从而得到文本P的量化矩阵。例如,使用
Figure BDA0001421179870000051
(词向量词典中表示字符p1的特征向量)表示p1
Figure BDA0001421179870000061
表示p2等,以此类推,在得到各个字符所对应的特征向量后,使用以下公式得到文本P的量化矩阵p1:m
Figure BDA0001421179870000062
在公式中:p1:m表示文本P的量化矩阵;
Figure BDA0001421179870000063
Figure BDA0001421179870000064
表示文本P中各字符所对应的特征向量;
Figure BDA0001421179870000065
表示沿行方向的拼接运算符。
同理,可以将文本Q的量化矩阵表示为:
Figure BDA0001421179870000066
具体地,本实施例中使用的词向量词典,可以采用如下方式建立:
首先获取训练样本中所有文本对中所包含的字符,构建一个其中没有重复字符的集合,将该集合称为词典。另外,考虑到所构建的词典可能无法覆盖所有语言的字符,还可以在词典中添加一个“UNK”字符串,用以表示没有出现在该词典中的字符,使得所构建的词典更为完善。
然后对词典中的每个字符设置特征向量,得到词向量词典。对每个字符设置特征向量,即设置对应每个字符的特征向量的维度和各维度上的特征值。例如,可以将特征向量的维度设置为d,各维度上的特征值设置为在
Figure BDA0001421179870000067
中的随机数,另外对“UNK”字符串设置为0向量。可以理解的是,各字符所对应的特征向量将会在同义鉴别模型的训练过程中进行调整,更具体来说各字符所对应的特征向量的各维度上的特征值会随着训练过程进行优化调整,词向量词典的优化调整过程将在下文详述。
(3)将各文本的量化矩阵作为卷积神经网络的输入,将该文本对对应的同义标注结果作为卷积神经网络的输出,训练所述卷积神经网络,得到同义鉴别模型。
在本步骤中,将由上步骤所得到的某文本对中各文本的量化矩阵作为卷积神经网络的输入,将该文本对对应的同义标注结果作为卷积神经网络的输出,对神经网络进行训练。其中,卷积神经网络的训练目标为最小化损失值,根据损失值进行参数调整,关于根据损失值进行调整的过程将在下文中详述。
卷积神经网络的训练过程可以采用以下方式进行:
1)在卷积层按照预设步长和窗口长度,对文本的量化矩阵进行卷积处理,将得到的卷积特征构成该文本的卷积特征矩阵。
其中,卷积层的参数包括过滤器模组参数ωh和偏置参数bh
Figure BDA0001421179870000071
表示k个过滤器中的第i个。以文本P为例说明得到文本P的卷积特征矩阵的过程:
若所获取的文本P的量化矩阵为p1:m,使用卷积层参数
Figure BDA0001421179870000072
和bh对其进行一次卷积操作的过程为:
首先在长度为m的文本P上,以预设步长依次截取预设窗口长度的字符串,优选地预设步长为1,预设的窗口长度为h,将文本截取结果表示为pj:j+h-1;其次结合参数
Figure BDA0001421179870000073
和bh对该截取结果进行一次卷积运算,得到该截取结果的卷积结果
Figure BDA0001421179870000074
可以使用以下公式计算得到卷积结果
Figure BDA0001421179870000075
Figure BDA0001421179870000076
在公式中:
Figure BDA0001421179870000077
表示卷积结果,f(x)为非线性函数tanh,
Figure BDA0001421179870000078
表示过滤器参数,pj:j+h-1表示文本截取结果,bh表示偏置参数。
考虑到在长度为m的文本P中一共可以截取m-h+1段字符串,对每段字符串都进行一次卷积运算,则得到该文本P的卷积特征为
Figure BDA0001421179870000079
其可以表示为
Figure BDA00014211798700000710
此外,由于卷积层中过滤器模组共有k个过滤器,则可以通过以下公式,得到该文本P的卷积特征矩阵CP,h
Figure BDA00014211798700000711
在公式中:CP,h表示文本P的卷积特征矩阵,k表示过滤器模组中第k个过滤器,T表示转置运算符。
同理可得,可以通过以下公式,得到文本Q的卷积特征矩阵CQ,h
Figure BDA00014211798700000712
2)在池化层对卷积特征矩阵进行多种粒度的池化处理,分别得到文本的多种粒度的语义特征。
在本实施例中,使用两种粒度进行说明。在本步骤中,对上步骤中所得到的卷积特征矩阵进行不同方向的池化处理,分别得到表示两种不同粒度的语义特征。其中,两种粒度分别为文本整体级别的粒度,可以看为粗粒度;以及文本片段级别的粒度,可以看为细粒度。
由于文本的卷积特征矩阵中各卷积特征概括了文本中任意一段预设窗口长度的连续文本片段的语义,因此从中选取最具有代表性的特征作为文本一部分的语义特征,则可以通过以下公式分别获取文本P和Q在预设窗口长度的连续文本片段语义特征sP,h和sQ,h
Figure BDA0001421179870000081
Figure BDA0001421179870000082
在公式中:sP,h和sQ,h分别表示文本P和Q在预设窗口长度h的连续文本片段语义特征,max表示对卷积特征求取最大值,k表示第k个过滤器。
进一步地,如果预设窗口长度的字符串是卷积运算能够覆盖的最长语义片段,则综合考虑所有被覆盖的字符串长度片段(1,2,...,h),则可以通过以下公式分别得到文本P和Q的文本整体语义特征SP和SQ
Figure BDA0001421179870000083
Figure BDA0001421179870000084
在公式中:SP和SQ分别表示文本P和Q的文本整体语义特征;h表示所截取字符串的长度,即为预设窗口长度;
Figure BDA0001421179870000085
表示拼接运算符;T表示转置运算符。
对于文本卷积特征矩阵,除了获取文本整体的语义特征以外,还可以获取文本片段的语义特征。在这里,可以使用以下公式获取文本P和Q中预设窗口长度的连续文本片段的语义特征gP,h和gQ,h
Figure BDA0001421179870000086
Figure BDA0001421179870000087
在公式中:gP,h和gQ,h分别表示文本P和Q中在预设窗口长度h的连续文本片段的语义特征;max表示对卷积特征求取最大值;m-h+1表示文本P中连续文本片段的个数;n-h+1表示文本Q中连续文本片段的个数。
然后,将长度从1到h的所有文本片段的语义特征进行拼接,可以采用以下公式得到文本P和Q的文本片段的语义特征GP和GQ
Figure BDA0001421179870000091
Figure BDA0001421179870000092
在公式中:GP和GQ分别表示文本P和Q的文本片段语义特征;h表示预设窗口长度;
Figure BDA0001421179870000093
表示拼接运算符。
因此,在本步骤中,通过对文本的卷积特征矩阵进行两种不同方向的池化处理,能够分别获取文本P和Q的粗粒度的文本整体级别的语义特征和细粒度的文本片段级别的语义特征。
3)利用文本对中各文本对应的相同粒度的语义特征,构建所述文本对的各粒度的匹配特征向量。
在本步骤中,利用由上步骤所得到的各文本的文本整体级别的语义特征,构建文本整体级别的匹配特征向量,可以使用XSLM表示;利用由上步骤所得到的各文本的文本片段级别的语义特征,构建文本片段级别的匹配特征向量,可以使用XMGM表示。然后将文本整体级别的匹配特征向量与文本片段级别的匹配向量进行拼接,得到文本对的匹配特征,可以使用XGSM
可以使用以下公式得到文本整体级别的匹配特征向量XSLM
Figure BDA0001421179870000094
在公式中:XSLM表示文本对的文本整体级别的匹配特征向量;SP和SQ分别表示文本P和Q的文本整体级别的语义特征;
Figure BDA0001421179870000095
表示拼接运算符;⊙表示两个向量作对应位置的乘法运算。
可以使用以下公式得到文本片段级别的匹配特征向量XMGM
XMGM=GP(GQ)T
在公式中:XMGM表示文本对的文本片段级别的匹配特征向量;T表示转置运算符。
可以使用以下公式得到文本对的匹配特征:
Figure BDA0001421179870000096
在公式中:XGSM表示文本对的匹配特征;XSLM表示文本整体级别的匹配特征向量;XMGM表示文本片段级别的匹配特征向量;T表示转置运算符。
4)在全连接层将文本对的匹配特征映射至该文本对的同义标注结果,并利用映射结果与标注结果之间的误差,调整卷积神经网络的参数和所述词向量词典。
在本步骤中,将上步骤所得到的匹配特征XGSM作为输入,使用全连接层中的分类器参数α和偏置参数β得到映射结果,使用
Figure BDA0001421179870000101
表示映射结果。可以采用以下公式计算得到映射结果
Figure BDA0001421179870000102
Figure BDA0001421179870000103
在公式中:
Figure BDA0001421179870000104
表示文本对的同义映射结果;α为分类器参数;β为偏置参数。
在得到文本对的同义映射结果之后,获取该文本对同义映射结果和同义标注结果之间的误差,将该误差作为损失值,对卷积神经网络的参数和词向量词典进行调整。可以使用以下公式得到文本对同义映射结果和同义标注结果之间的误差:
Figure BDA0001421179870000105
在公式中:L表示映射结果和标注结果之间的误差;y表示同义标注结果;
Figure BDA0001421179870000106
表示同义映射结果。
具体地,卷积神经网络的训练目标为最小化该损失值,即为最小化文本对同义映射结果与同义标注结果之间的误差L。可选地,在本实施例的一个具体实现过程中,若在预设次数内所得到的误差收敛,则认为该卷积神经网络的损失值最小化;也可以为若所得到的误差收敛到预设值,则认为该卷积神经网络的损失值最小化;还可以为若训练次数超过预设次数时,则认为该卷积神经网络的损失值最小化。当卷积神经网络的损失值最小化时,即认为卷积神经网络的训练过程完成,得到同义鉴别模型。
在对卷积神经网络的训练过程中,最小化损失值的过程实际上是利用损失值进行反馈对卷积神经网络进行调参的过程,例如包括卷积层的过滤器模组、偏置参数的调整,对全连接层的分类器参数和偏置参数的调整。
同时,在利用损失值对卷积神经网络的训练过程中,还对词向量词典中各字符所对应的特征向量进行调整。在每次迭代调整之后,在下一次对卷积神经网络进行训练时,使用调整后的词向量词典对文本对中所包含的字符进行特征向量的映射。在训练完成得到同义鉴别模型时,可以认为词向量词典中各字符所对应的特征向量的调整结束,已经得到各特征向量的最优值,从而能够进一步提升鉴别同义文本的准确性。
图2为本发明一实施例提供的鉴别同义文本的方法流程图,如图2中所示,所述方法包括:
在201中,获取待鉴别的文本对。
在本步骤中,所获取的文本对是任意语种的文本对。例如,可以是中文语种的文本对,也可以为英文语种的文本对,还可以为其他语种的文本对。
在202中,利用词向量词典,得到所述文本对中各文本的量化矩阵。
在本步骤中,利用词向量词典对由步骤201中所获取文本对中的各文本进行映射,以得到该文本对中各文本所对应的量化矩阵。其中,该词向量词典是在得到同义鉴别模型时所对应的词向量词典。
在利用词向量词典得到该文本对中各文本所对应的量化矩阵时,可以采用如下方式:获取文本对中各文本所包含的全部字符,其中字符可以为中文汉字,还可以为英文单词;利用词向量词典分别确定各文本所包含字符的特征向量,将该词向量词典中与所获取字符一致的字符所对应的特征向量映射至各文本所包含的字符;将映射至各字符的特征向量进行拼接,从而得到该文本对中各文本所对应的量化矩阵。该步骤获得各文本量化矩阵的过程与在训练卷积神经网络时得到训练样本中各文本的量化矩阵的过程一致,在此不进行赘述。
在203中,将所述各文本的量化矩阵作为同义鉴别模型的输入,根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。
在本步骤中,将步骤202中所获取的各文本的量化矩阵作为输入,输入预先训练得到的同义鉴别模型,然后根据模型所输出的结果确定该文本对的同义鉴别结果。
在本步骤中,将各文本的量化矩阵输入同义鉴别模型后,首先通过同义鉴别模型的卷积层获取各文本的卷积特征矩阵;然后在池化层对所获取的卷积特征矩阵进行两种粒度的池化处理,得到各文本的文本整体级别的语义特征以及文本片段的语义特征;再利用各文本相同粒度的语义特征,构建文本对文本整体级别和文本片段级别的语义特征,对两种语义特征进行拼接后,得到该文本对的匹配特征;在全连接层,根据所得到的匹配特征,获取该文本对的同义计算结果。上述过程中的卷积处理、池化处理、拼接处理以及映射处理等,与训练卷积神经网络时的处理过程一致,在此不进行赘述。
在得到同义鉴别模型输出的同义计算结果后,将该结果与预设阈值进行比较,若该计算结果满足预设阈值的要求,则该文本对的同义鉴别结果为同义,否则为不同义。
例如,若设置0.5为预设阈值,若由同义鉴别模型所输出的同义计算结果为0.4,则表明该句子对为非同义句;若由同义鉴别模型所输出的同义计算结果为0.7,则表明该句子对为同义句。
由于在同义鉴别模型的训练过程中,已经将该模型内的参数以及词向量词典中各字符的特征向量优化到最优值,因此能够对所获取的文本对准确地获取对应的量化矩阵,进而通过同义鉴别模型准确地获取该文本对的同义鉴别结果。
图3为本发明一实施例建立同义鉴别模型的装置结构图,如图3中所示,所述装置包括:第一获取单元31、第一量化单元32以及训练单元33。
第一获取单元31,用于获取训练样本中的文本对。
第一获取单元31从训练样本中所获取的文本对还预先标注有该文本对的同义结果,即通过文本对的标注结果能够得知该文本对是否同义,若标注为1,则表明该文本对同义,若标注为0,则表明该文本对不同义。
第一量化单元32,用于利用词向量词典,得到所述文本对中各文本的量化矩阵。
第一量化单元32首先获取文本对中各文本所包含的字符;然后利用词向量词典分别确定各文本所包含字符的特征向量,即使用词向量词典中的特征向量表示文本中所包含的字符;最后将所获取的特征向量进行拼接,从而得到文本对中各文本的量化矩阵。
其中,第一量化单元32所使用的词向量词典,可以使用如下方式建立:
首先获取训练样本中所有文本对包含的字符,构建一个其中没有重复字符的集合,将该集合称为词典。另外,考虑到所构建的词典可能无法覆盖所有语言的字符,还可以在词典中添加一个“UNK”字符串,用以表示没有出现在该词典中的字符,使得所构建的词典更为完善。
然后对词典中的每个字符设置特征向量,得到词向量词典。对每个字符设置特征向量,即设置每个字符所对应特征向量的维度和各维度上的特征值。例如,可以将特征向量的维度设置为d,各维度上的特征值设置为在
Figure BDA0001421179870000131
中的随机数,另外对“UNK”字符串设置为0向量。可以理解的是,各字符所对应的特征向量将会在模型的训练过程中特征向量各维度上的特征值会随着训练过程进行优化调整,该部分将在下文详述。
训练单元33,用于将各文本的量化矩阵作为卷积神经网络的输入,将该文本对对应的同义标注结果作为卷积神经网络的输出,训练所述卷积神经网络,得到同义鉴别模型。
训练单元33将由第一量化单元32所得到某文本对中各文本的量化矩阵作为卷积神经网络的输入,将该文本对对应的同义标注结果作为卷积神经网络的输出,对神经网络进行训练。其中,卷积神经网络的训练目标为最小化损失函数,关于损失函数将在下文中详述。
下面对训练单元33在训练卷积神经网络时的具体过程进行详述:
1)在卷积层按照预设步长和窗口长度,对文本的量化矩阵进行卷积处理,将得到的卷积特征构成该文本的卷积特征矩阵。
2)在池化层对卷积特征矩阵进行多种粒度的池化处理,分别得到文本的多种粒度的语义特征。在本实施例中,以两种粒度为例进行说明。
3)利用文本对中各文本对应的相同粒度的语义特征,构建所述文本对的各粒度的匹配特征向量。
4)在全连接层将文本对的匹配特征映射至该文本对的同义标注结果,并利用映射结果与标注结果之间的误差,调整卷积神经网络的参数和所述词向量词典。
具体地,训练单元33在训练卷积神经网络时的训练目标为最小化该损失值,即为最小化文本对同义映射结果与同义标注结果之间的误差L。可选地,在本实施例的一个具体实现过程中,若在预设次数内所得到的误差收敛,训练单元33则认为该卷积神经网络的损失值最小化;也可以为若所得到的误差收敛到预设值,训练单元33则认为该卷积神经网络的损失值最小化;还可以为若训练次数超过预设次数时,训练单元33则认为该卷积神经网络的损失值最小化。当卷积神经网络的损失值最小化时,训练单元33即认为卷积神经网络的训练过程完成,得到同义鉴别模型。
在训练单元33对卷积神经网络的训练过程中,最小化损失值的过程实际上是利用损失值进行反馈对卷积神经网络进行调参的过程,例如包括卷积层的过滤器模组、偏置参数的调整,对全连接层的分类器参数和偏置参数的调整。同时,在训练单元33利用损失值对卷积神经网络的训练过程中,训练单元33还对词向量词典中各字符所对应的特征向量进行调整。在每次迭代调整之后,在下一次对卷积神经网络进行训练时,训练单元33会使用调整后的词向量词典对文本对中所包含的字符进行特征向量的映射。在训练完成得到同义鉴别模型时,可以认为词向量词典中各字符所对应的特征向量的调整结束,从而进一步提升对同义文本鉴别的准确性。
图4为本发明一实施例提供的鉴别同义文本的装置结构图,如图4中所示,所述装置包括:第二获取单元41、第二量化单元42以及鉴别单元43。
第二获取单元41,用于获取待鉴别的文本对。
第二获取单元41所获取的文本对是任意语种的文本对。例如,可以是中文语种的文本对,也可以为英文语种的文本对,还可以为其他语种的文本对。
第二量化单元42,用于利用词向量词典,得到所述文本对中各文本的量化矩阵。
第二量化单元42利用词向量词典对由第二获取单元41所获取文本对中的各文本进行映射,以得到该文本对中各文本所对应的量化矩阵。其中,该词向量词典是在得到同义鉴别模型时所对应的词向量词典。
第二量化单元42在利用词向量词典得到该文本对中各文本所对应的量化矩阵时,可以采用如下方式:获取文本对中各文本所包含的全部字符,其中字符可以为中文汉字,还可以为英文单词;利用词向量词典分别确定各文本所包含字符的特征向量,即将该词向量词典中与所获取字符一致的字符所对应的特征向量映射至各文本所包含的字符;将映射至各字符的特征向量进行拼接,从而得到该文本对中各文本所对应的量化矩阵。
鉴别单元43,用于将所述各文本的量化矩阵作为同义鉴别模型的输入,根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。
鉴别单元43将由第二量化单元42所获取的各文本的量化矩阵作为输入,输入到预先训练得到的同义鉴别模型中,根据模型所输出的结果确定该文本对的同义鉴别结果。
鉴别单元43在将各文本的量化矩阵输入同义鉴别模型后,首先通过同义鉴别模型的卷积层获取各文本的卷积特征矩阵;然后在池化层对所获取的卷积特征矩阵进行两种粒度的池化处理,得到各文本的文本整体级别的语义特征以及文本片段的语义特征;再利用各文本相同粒度的语义特征,构建文本对文本整体级别和文本片段级别的语义特征,对两种语义特征进行拼接后,得到该文本对的匹配特征;在全连接层,根据所得到的匹配特征,获取该文本对的同义计算结果。
在得到同义鉴别模型输出的同义计算结果后,鉴别单元43将该同义计算结果与预设阈值进行比较,若该计算结果满足预设阈值的要求,则该文本对的同义鉴别结果为同义,否则为不同义。
图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图5显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元016通过运行存储在系统存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现一种建立同义鉴别模型的方法,可以包括:
获取训练样本中的文本对;
利用词向量词典,得到所述文本对中各文本的量化矩阵;
将各文本的量化矩阵作为卷积神经网络的输入,将该文本对对应的同义标注结果作为卷积神经网络的输出,训练所述卷积神经网络,得到同义鉴别模型。
又或者例如实现一种鉴别同义文本的方法,可以包括:
获取待鉴别的文本对;
利用词向量词典,得到所述文本对中各文本的量化矩阵;
将所述各文本的量化矩阵作为同义鉴别模型的输入,根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如,被上述一个或多个处理器执行的方法流程,可以包括:
获取训练样本中的文本对;
利用词向量词典,得到所述文本对中各文本的量化矩阵;
将各文本的量化矩阵作为卷积神经网络的输入,将该文本对对应的同义标注结果作为卷积神经网络的输出,训练所述卷积神经网络,得到同义鉴别模型。
或者还可以包括:
获取待鉴别的文本对;
利用词向量词典,得到所述文本对中各文本的量化矩阵;
将所述各文本的量化矩阵作为同义鉴别模型的输入,根据所述同义鉴别模型的输出确定文本对的同义鉴别结果。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
利用本发明所提供的技术方案,通过基于卷积神经网络预先建立同义鉴别模型,能够根据所输入的文本对直接获得该文本对的同义鉴别结果,降低了对切词工具、词性分析、句子模板等辅助工具的依赖,能够提高文本对同义鉴别结果的准确性。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (15)

1.一种建立同义鉴别模型的方法,其特征在于,所述方法包括:
获取训练样本中的文本对;
利用词向量词典,得到所述文本对中各文本的量化矩阵,所述词向量词典中包含多个字符以及与各字符对应的特征向量,所述与各字符对应的特征向量会随着卷积神经网络的训练过程而被调整;
将各文本的量化矩阵作为卷积神经网络的输入,将该文本对对应的同义标注结果作为卷积神经网络的输出,训练所述卷积神经网络,得到同义鉴别模型;
所述同义鉴别模型用于鉴别输入的文本对是否同义;
其中,所述训练所述卷积神经网络包括:
在池化层对由所述文本的量化矩阵得到的卷积特征矩阵进行多种粒度的池化处理,分别得到文本的多种粒度的语义特征;
利用文本对中各文本对应的相同粒度的语义特征,构建所述文本对的各粒度的匹配特征向量;
将所述构建的文本对的各粒度的匹配特征向量的转置运算结果进行拼接,得到所述文本对的匹配特征。
2.根据权利要求1所述的方法,其特征在于,所述利用词向量词典,得到所述文本对中各文本的量化矩阵包括:
获取文本对中各文本所包含的字符;
利用词向量词典分别确定各文本所包含字符的特征向量;
将所述获取的特征向量进行拼接,得到所述文本对中各文本的量化矩阵。
3.根据权利要求1所述的方法,其特征在于,在训练所述卷积神经网络时,包括:
在卷积层按照预设步长和窗口长度,对文本的量化矩阵进行卷积处理,将得到的卷积特征构成该文本的卷积特征矩阵。
4.根据权利要求1所述的方法,其特征在于,在训练所述卷积神经网络时,包括:
在全连接层将文本对的匹配特征映射至该文本对的同义标注结果,并利用映射结果与标注结果之间的误差,调整卷积神经网络的参数和所述词向量词典。
5.一种鉴别同义文本的方法,其特征在于,所述方法包括:
获取待鉴别的文本对;
利用词向量词典,得到所述文本对中各文本的量化矩阵,所述词向量词典中包含多个字符以及与各字符对应的特征向量,所述与各字符对应的特征向量为训练得到同义鉴别模型时经过调整之后的特征向量;
将所述各文本的量化矩阵作为同义鉴别模型的输入,根据所述同义鉴别模型的输出确定文本对的同义鉴别结果;
其中,所述词向量词典与所述同义鉴别模型是采用1至4中任一权项所述方法得到的;
在所述同义鉴别模型对所述各文本的量化矩阵进行处理时,包括:
在池化层对由所述文本的量化矩阵得到的卷积特征矩阵进行多种粒度的池化处理,分别得到各文本的多种粒度的语义特征;
利用文本对中各文本对应的相同粒度的语义特征,构建所述文本对的各粒度的匹配特征向量;
将所述构建的文本对的各粒度的匹配特征向量的转置运算结果进行拼接,得到所述文本对的匹配特征。
6.根据权利要求5所述的方法,其特征在于,所述利用词向量词典,得到所述文本对中各文本的量化矩阵包括:
获取文本对中各文本所包含的字符;
利用词向量词典分别确定各文本所包含字符的特征向量;
将所述获取的特征向量进行拼接,得到所述文本对中各文本的量化矩阵。
7.根据权利要求5所述的方法,其特征在于,在所述同义鉴别模型对所述各文本的量化矩阵进行处理时,包括:
在卷积层按照预设步长和窗口长度,对文本的量化矩阵进行卷积处理,将得到的卷积特征构成该文本的卷积特征矩阵。
8.根据权利要求5所述的方法,其特征在于,在所述同义鉴别模型对所述各文本的量化矩阵进行处理时,包括:
在全连接层根据所述匹配特征获取该文本对的同义计算结果。
9.根据权利要求8所述的方法,其特征在于,所述根据所述同义鉴别模型的输出确定文本对的同义鉴别结果包括:
若所述同义计算结果满足预设阈值的要求,则该文本对的同义鉴别结果为同义句,否则不为同义句。
10.一种建立同义鉴别模型的装置,其特征在于,所述装置包括:
第一获取单元,用于获取训练样本中的文本对;
第一量化单元,用于利用词向量词典,得到所述文本对中各文本的量化矩阵,所述词向量词典中包含多个字符以及与各字符对应的特征向量,所述与各字符对应的特征向量会随着卷积神经网络的训练过程而被调整;
训练单元,用于将各文本的量化矩阵作为卷积神经网络的输入,将该文本对对应的同义标注结果作为卷积神经网络的输出,训练所述卷积神经网络,得到同义鉴别模型;
所述同义鉴别模型用于鉴别输入的文本对是否同义;
所述训练单元在训练所述卷积神经网络时,具体执行:
在池化层对由所述文本的量化矩阵得到的卷积特征矩阵进行多种粒度的池化处理,分别得到文本的多种粒度的语义特征;
利用文本对中各文本对应的相同粒度的语义特征,构建所述文本对的各粒度的匹配特征向量;
将所述构建的文本对的各粒度的匹配特征向量的转置运算结果进行拼接,得到所述文本对的匹配特征。
11.根据权利要求10所述的装置,其特征在于,所述训练单元在训练所述卷积神经网络时,具体执行:
在卷积层按照预设步长和窗口长度,对文本的量化矩阵进行卷积处理,将得到的卷积特征构成该文本的卷积特征矩阵。
12.一种鉴别同义文本的装置,其特征在于,所述装置包括:
第二获取单元,用于获取待鉴别的文本对;
第二量化单元,用于利用词向量词典,得到所述文本对中各文本的量化矩阵,所述词向量词典中包含多个字符以及与各字符对应的特征向量,所述与各字符对应的特征向量为训练得到同义鉴别模型时经过调整之后的特征向量;
鉴别单元,用于将所述各文本的量化矩阵作为同义鉴别模型的输入,根据所述同义鉴别模型的输出确定文本对的同义鉴别结果;
其中,所述词向量词典与所述同义鉴别模型是采用10至11中任一权项所述装置得到的;
所述同义鉴别模型对所述各文本的量化矩阵进行处理时,具体执行:
在池化层对由所述文本的量化矩阵得到的卷积特征矩阵进行多种粒度的池化处理,分别得到各文本的多种粒度的语义特征;
利用文本对中各文本对应的相同粒度的语义特征,构建所述文本对的各粒度的匹配特征向量;
将所述构建的文本对的各粒度的匹配特征向量的转置运算结果进行拼接,得到所述文本对的匹配特征。
13.根据权利要求12所述的装置,其特征在于,所述同义鉴别模型对所述各文本的量化矩阵进行处理时,具体执行:
在卷积层按照预设步长和窗口长度,对文本的量化矩阵进行卷积处理,将得到的卷积特征构成该文本的卷积特征矩阵。
14.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
15.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-9中任一所述的方法。
CN201710890961.8A 2017-09-27 2017-09-27 建立同义鉴别模型以及鉴别同义文本的方法、装置 Active CN107797985B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710890961.8A CN107797985B (zh) 2017-09-27 2017-09-27 建立同义鉴别模型以及鉴别同义文本的方法、装置
US16/118,104 US10776578B2 (en) 2017-09-27 2018-08-30 Method and apparatus for building synonymy discriminating model and method and apparatus for discriminating synonymous text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710890961.8A CN107797985B (zh) 2017-09-27 2017-09-27 建立同义鉴别模型以及鉴别同义文本的方法、装置

Publications (2)

Publication Number Publication Date
CN107797985A CN107797985A (zh) 2018-03-13
CN107797985B true CN107797985B (zh) 2022-02-25

Family

ID=61532646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710890961.8A Active CN107797985B (zh) 2017-09-27 2017-09-27 建立同义鉴别模型以及鉴别同义文本的方法、装置

Country Status (2)

Country Link
US (1) US10776578B2 (zh)
CN (1) CN107797985B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304835B (zh) * 2018-01-30 2019-12-06 百度在线网络技术(北京)有限公司 文字检测方法和装置
CN109522920B (zh) * 2018-09-18 2020-10-13 义语智能科技(上海)有限公司 基于结合语义特征的同义判别模型的训练方法及设备
CN109902296B (zh) * 2019-01-18 2023-06-30 华为技术有限公司 自然语言处理方法、训练方法及数据处理设备
CN110020431B (zh) * 2019-03-06 2023-07-18 平安科技(深圳)有限公司 文本信息的特征提取方法、装置、计算机设备及存储介质
CN111753822B (zh) 2019-03-29 2024-05-24 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN110245219A (zh) * 2019-04-25 2019-09-17 义语智能科技(广州)有限公司 一种基于自动扩展问答数据库的问答方法及设备
CN110516070B (zh) * 2019-08-28 2022-09-30 上海海事大学 一种基于文本纠错与神经网络的中文问句分类方法
CN110851546B (zh) * 2019-09-23 2021-06-29 京东数字科技控股有限公司 一种验证、模型的训练、模型的共享方法、系统及介质
CN110826325B (zh) * 2019-11-04 2023-12-26 创新工场(广州)人工智能研究有限公司 一种基于对抗训练的语言模型预训练方法、系统及电子设备
CN111126047B (zh) * 2019-12-23 2024-02-13 中国银联股份有限公司 一种同义文本生成的方法及装置
CN111177385B (zh) * 2019-12-26 2023-04-07 北京明略软件系统有限公司 一种多层次分类模型训练方法、多层次分类方法和装置
CN111414750B (zh) * 2020-03-18 2023-08-18 北京百度网讯科技有限公司 一种词条的同义判别方法、装置、设备和存储介质
CN111966796B (zh) * 2020-07-21 2022-06-14 福建升腾资讯有限公司 问答对提取方法、装置、设备及可读存储介质
CN112101014B (zh) * 2020-08-20 2022-07-26 淮阴工学院 一种混合特征融合的中文化工文献分词方法
CN112287641B (zh) * 2020-12-25 2021-03-09 上海旻浦科技有限公司 一种同义句生成方法、系统、终端及存储介质
CN114330512B (zh) * 2021-12-13 2024-04-26 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN116645525B (zh) * 2023-07-27 2023-10-27 深圳市豆悦网络科技有限公司 一种游戏图像识别方法及处理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377769A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文本信息的多粒度表示方法
CN106649853A (zh) * 2016-12-30 2017-05-10 儒安科技有限公司 一种基于深度学习的短文本聚类方法
CN106776545A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种通过深度卷积神经网络进行短文本间相似度计算的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170220951A1 (en) * 2016-02-02 2017-08-03 Xerox Corporation Adapting multiple source classifiers in a target domain
CN106844346B (zh) * 2017-02-09 2020-08-25 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN107066548B (zh) * 2017-03-21 2019-09-27 华中科技大学 一种双维度分类提取网页链接的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377769A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文本信息的多粒度表示方法
CN106776545A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN106649853A (zh) * 2016-12-30 2017-05-10 儒安科技有限公司 一种基于深度学习的短文本聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Convolutional Neural Network Architectures for Matching Natural Language Sentences;Baotian Hu, et al;《Advances in Neural Information Processing Systems(NIPS)》;20141231;第2042-2050页 *
基于深度神经网络的文本表示及其应用;户保田;《中国优秀博士学位论文全文数据库信息科技辑(月刊)》;20170215(第02期);第I138-220页 *
户保田.基于深度神经网络的文本表示及其应用.《中国优秀博士学位论文全文数据库信息科技辑(月刊)》.2017,(第02期),第I138-220页. *

Also Published As

Publication number Publication date
CN107797985A (zh) 2018-03-13
US20190095429A1 (en) 2019-03-28
US10776578B2 (en) 2020-09-15

Similar Documents

Publication Publication Date Title
CN107797985B (zh) 建立同义鉴别模型以及鉴别同义文本的方法、装置
CN107729300B (zh) 文本相似度的处理方法、装置、设备和计算机存储介质
US20210390271A1 (en) Neural machine translation systems
CN107291828B (zh) 基于人工智能的口语查询解析方法、装置及存储介质
CN110245348B (zh) 一种意图识别方法及系统
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN110765785B (zh) 基于神经网络的中英翻译方法、及其相关设备
WO2021051574A1 (zh) 英文文本序列标注方法、系统及计算机设备
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN111125317A (zh) 对话型文本分类的模型训练、分类、系统、设备和介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN111833845A (zh) 多语种语音识别模型训练方法、装置、设备及存储介质
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
WO2023093295A1 (zh) 基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质
CN110941951A (zh) 文本相似度计算方法、装置、介质及电子设备
CN109597881B (zh) 匹配度确定方法、装置、设备和介质
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN111898363B (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
CN111161730B (zh) 语音指令匹配方法、装置、设备及存储介质
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113362809B (zh) 语音识别方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant