CN111522926A - 文本匹配方法、装置、服务器和存储介质 - Google Patents

文本匹配方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN111522926A
CN111522926A CN202010278234.8A CN202010278234A CN111522926A CN 111522926 A CN111522926 A CN 111522926A CN 202010278234 A CN202010278234 A CN 202010278234A CN 111522926 A CN111522926 A CN 111522926A
Authority
CN
China
Prior art keywords
text
grained
fine
coarse
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010278234.8A
Other languages
English (en)
Inventor
刘艾婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Wuhan Co Ltd
Original Assignee
Tencent Technology Wuhan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Wuhan Co Ltd filed Critical Tencent Technology Wuhan Co Ltd
Priority to CN202010278234.8A priority Critical patent/CN111522926A/zh
Publication of CN111522926A publication Critical patent/CN111522926A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本匹配方法、装置、服务器和存储介质;本发明获取第一文本、第二文本;分别对第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;对第一文本和第二文本的细粒度子文本进行语义特征提取,得到第一文本和第二文本的细粒度特征;对第一文本和第二文本的粗粒度子文本进行语义特征提取,得到第一文本和第二文本的粗粒度特征;根据第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;基于多粒度语义特征预测第一文本和第二文本之间的文本相似度,以判断第一文本和第二文本的匹配情况。本发明可提升文本匹配方法的准确度。

Description

文本匹配方法、装置、服务器和存储介质
技术领域
本发明涉及计算机领域,具体涉及一种文本匹配方法、装置、服务器和存储介质。
背景技术
文本匹配技术通常以文本相似度计算、文本相关性计算的形式,在搜索搜索引擎、智能问答、知识检索、信息流推荐等领域广泛应用。
然而,目前的文本匹配方法准确度较低。
发明内容
本发明实施例提供一种文本匹配方法、装置、服务器和存储介质,可以提升文本匹配方法的准确度。
本发明实施例提供一种文本匹配方法,包括:
获取第一文本、第二文本;
分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;
对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征;
对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征;
根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;
基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,以判断所述第一文本和第二文本的匹配情况。
本发明实施例还提供一种文本匹配装置,包括:
获取单元,用于获取第一文本、第二文本;
分词单元,用于分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;
细粒度单元,用于对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征;
粗粒度单元,用于对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征;
融合单元,用于根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;
预测单元,用于基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,以判断所述第一文本和第二文本的匹配情况。
在一些实施例中,所述细粒度单元,包括:
细粒度网络子单元,用于获取细粒度孪生网络;
第一细粒度嵌入子单元,用于对所述第一文本的细粒度子文本进行细粒度文本嵌入处理,得到第一细粒度向量;
第二细粒度嵌入子单元,用于对所述第二文本的细粒度子文本进行细粒度文本嵌入处理,得到第二细粒度向量;
细粒度子单元,用于采用所述细粒度孪生网络对所述第一细粒度向量和第二细粒度向量进行语义特征提取,得到所述第一文本和第二文本的细粒度特征。
在一些实施例中,所述细粒度孪生网络包括共享网络参数的第一细粒度子网络和第二细粒度子网络,所述细粒度子单元,包括:
第一细粒度子模块,用于采用所述第一细粒度子网络对所述第一细粒度向量进行语义特征提取,得到所述第一文本的细粒度特征;
第二细粒度子模块,用于采用所述第二细粒度子网络对所述第二细粒度向量进行语义特征提取,得到所述第二文本的细粒度特征。
在一些实施例中,所述第一细粒度子网络包括第一细粒度正向时序记忆网络、第一细粒度逆向时序记忆网络和自注意力网络,所述第一细粒度子模块,用于:
采用所述第一细粒度正向时序记忆网络对所述第一细粒度向量进行正向时序特征提取,得到所述第一文本的细粒度正向时序特征;
采用所述第一细粒度逆向时序记忆网络对所述第一细粒度向量进行逆向时序特征提取,得到所述第一文本的细粒度逆向时序特征;
对所述第一文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第一文本的细粒度全局时序特征;
采用所述自注意力网络对所述第一文本的细粒度全局时序特征进行注意力权值分配,得到所述第一文本的细粒度特征。
在一些实施例中,所述第二细粒度子网络包括第二细粒度正向时序记忆网络、第二细粒度逆向时序记忆网络和自注意力网络,所述第二细粒度子模块,用于:
采用所述第二细粒度正向时序记忆网络对所述第二细粒度向量进行正向时序特征提取,得到所述第二文本的细粒度正向时序特征;
采用所述第二细粒度逆向时序记忆网络对所述第二细粒度向量进行逆向时序特征提取,得到所述第二文本的细粒度逆向时序特征;
对所述第二文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第二文本的细粒度全局时序特征;
采用所述自注意力网络对所述第二文本的细粒度全局时序特征进行注意力权值分配,得到所述第二文本的细粒度特征。
在一些实施例中,所述粗粒度单元,包括:
粗粒度网络子单元,用于获取粗粒度孪生网络;
第一粗粒度嵌入子单元,用于对所述第一文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第一粗粒度向量;
第二粗粒度嵌入子单元,用于对所述第二文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第二粗粒度向量;
粗粒度子单元,用于采用所述粗粒度孪生网络对所述第一粗粒度向量和第二粗粒度向量进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征。
在一些实施例中,所述粗粒度孪生网络包括共享网络参数的第一粗粒度子网络和第二粗粒度子网络,所述粗粒度子单元,包括:
第一粗粒度子模块,用于采用所述第一粗粒度子网络对所述第一粗粒度向量进行语义特征提取,得到所述第一文本的粗粒度特征;
第二粗粒度子模块,用于采用所述第二粗粒度子网络对所述第二粗粒度向量进行语义特征提取,得到所述第二文本的粗粒度特征。
在一些实施例中,所述第一粗粒度子网络包括第一粗粒度正向时序记忆网络、第一粗粒度逆向时序记忆网络和自注意力网络,所述第一粗粒度子模块,用于:
采用所述第一粗粒度正向时序记忆网络对所述第一粗粒度向量进行正向时序特征提取,得到所述第一文本的粗粒度正向时序特征;
采用所述第一粗粒度逆向时序记忆网络对所述第一粗粒度向量进行逆向时序特征提取,得到所述第一文本的粗粒度逆向时序特征;
对所述第一文本的粗粒度正向时序特征和粗粒度逆向时序特征进行特征拼接,得到第一文本的粗粒度全局时序特征;
采用所述自注意力网络对所述第一文本的粗粒度全局时序特征进行注意力权值分配,得到所述第一文本的粗粒度特征。
在一些实施例中,所述第二粗粒度子网络包括第二粗粒度正向时序记忆网络、第二粗粒度逆向时序记忆网络和自注意力网络,所述第二粗粒度子模块,用于:
采用所述第二粗粒度正向时序记忆网络对所述第二粗粒度向量进行正向时序特征提取,得到所述第二文本的粗粒度正向时序特征;
采用所述第二粗粒度逆向时序记忆网络对所述第二粗粒度向量进行逆向时序特征提取,得到所述第二文本的粗粒度逆向时序特征;
对所述第二文本的粗粒度正向时序特征和粗粒度逆向时序特征进行特征拼接,得到第二文本的粗粒度全局时序特征;
采用所述自注意力网络对所述第二文本的粗粒度全局时序特征进行注意力权值分配,得到所述第二文本的粗粒度特征。
在一些实施例中,所述融合单元,用于:
根据所述第一文本的细粒度特征和粗粒度特征进行特征拼接,得到第一文本的多粒度拼接特征;
根据所述第二文本的细粒度特征和粗粒度特征进行特征拼接,得到第二文本的多粒度拼接特征;
根据所述第一文本的多粒度拼接特征和第二文本的多粒度拼接特征进行特征拼接,得到多粒度语义特征。
在一些实施例中,所述细粒度子文本包括字级别子文本,粗粒度子文本包括词级别子文本所述分词单元,用于:
对所述第一文本进行字级别分词处理,得到第一文本的字级别子文本;
对所述第一文本进行词级别分词处理,得到第一文本的词级别子文本;
对所述第二文本进行字级别分词处理,得到第二文本的字级别子文本;
对所述第二文本进行词级别分词处理,得到第二文本的词级别子文本。
在一些实施例中,所述预测单元,用于:
获取多层感知机,所述多层感知机中包括至少一个隐藏层;
采用所述隐藏层对所述多粒度语义特征进行加权求和处理,得到所述第一文本和第二文本之间的文本匹配向量;
对所述文本匹配向量进行归一化处理,得到所述第一文本和第二文本之间的文本相似度。
本发明实施例还提供一种服务器,包括存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本发明实施例所提供的任一种文本匹配方法中的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种文本匹配方法中的步骤。
本发明实施例可以获取第一文本、第二文本;分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征;对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征;根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,以判断所述第一文本和第二文本的匹配情况。
在本发明中,可以在不同尺寸的粒度级别下对文本进行分词处理,提取并结合了不同尺寸的粒度级别下文本的语义特征,该文本的语义特征更加丰富、准确,从而使得这些语义特征预测得到的预测结果更加准确。由此,提升了文本匹配方法的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本匹配方法的流程示意图;
图2a是本发明实施例提供的文本匹配方法应用在浏览器搜索场景下的搜索页面示意图;
图2b是本发明实施例提供的预设模型的模型结构;
图3是本发明实施例提供的文本匹配装置的结构示意图;
图4是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本匹配方法、装置、服务器和存储介质。
其中,该文本匹配装置具体可以集成在电子设备中,该电子设备可以为服务器,该服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该文本匹配装置还可以集成在多个服务器中,由多个服务器来实现本发明的文本匹配方法。
在一些实施例中,服务器也可以以终端的形式来实现。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
人工智能(Artificial Intelligence,AI)是一种利用计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
其中,自然语言处理技术(Natural Language Processing,NLP)是利用计算机代替人脑对目标文本进行识别、理解等操作并进一步进行处理的技术。自然语言处理技术通常可以应用于文本预处理(Text preprocessing)、语义理解(Semantic understanding)、机器翻译(Machine TranLSation)、文本匹配等领域。
在本实施例中,提供了一种基于NLP的文本匹配方法,可以应用于文本匹配领域,比如,与文本搜索、文本排序、关键语句匹配、文本推荐等等,如图1所示,该文本匹配方法的具体流程可以如下:
101、获取第一文本、第二文本。
本方案可以对第一文本和第二文本进行对比,判断第一文本是否与第二文本相似。
其中,第一文本和第二文本可以是由任意文字、数字、符号等内容构成的文本数据,该第一文本和第二文本可以具有相同的文本内容,也可以具有不同的文本内容。
获取第一文本和第二文本的方式可以相同,也可以不同。获取的方式多种,比如,可以通过网络从数据库中获取;比如,从本地内存中读取;比如,通过用户录入获取,等等。
102、分别对第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本。
其中,多粒度分词处理是指对将文本切分为多个不同粒度尺寸大小的子文本;比如,粒度尺寸可以包括字级别、词语级别、短句级别、段落级别、固定双字级别、固定三字级别、固定四字级别,等等。
例如,对于文本“我喜欢吃米饭”进行文本切分,当粒度尺寸为字级别时,得到多个字级别的子文本“我”、“喜”、“欢”、“吃”、“米”、“饭”;当粒度尺寸为词语级别时,得到多个词语级别的子文本“我”、“喜欢”、“吃”、“米饭”;当粒度尺寸为固定双字级别时,得到多个固定双字级别的子文本“我喜”、“欢吃”、“米饭”,等等。
在本实施例中,细粒度子文本的粒度尺寸小于或等于粗粒度子文本,细粒度子文本和粗粒度子文本具体的粒度尺寸可以由人设定,也可以按照预设参数设定。
在一些实施例中,为了提取不同粒度尺寸下文本所表达的语义信息,从而提高文本匹配的准确度,故可以将第一文本和第二文本进行分词处理,切分为不同粒度尺寸的子文本。
例如,在一些实施例中,细粒度子文本可以包括字级别子文本,粗粒度子文本可以包括词级别子文本,步骤102可以包括如下步骤:
对第一文本进行字级别分词处理,得到第一文本的字级别子文本;
对第一文本进行词级别分词处理,得到第一文本的词级别子文本;
对第二文本进行字级别分词处理,得到第二文本的字级别子文本;
对第二文本进行词级别分词处理,得到第二文本的词级别子文本。
其中,文本分词的方法多样,比如,文本分词法可以包括字符匹配法、字符统计法、机器学习法,等等。
103、对第一文本和第二文本的细粒度子文本进行语义特征提取,得到第一文本和第二文本的细粒度特征。
在本实施例中,可以提取细粒度子文本的语义特征。
其中,第一文本的细粒度特征是指在第一文本的细粒度子文本所对应的语义特征;第二文本的细粒度特征是指在第二文本的细粒度子文本所对应的语义特征。
为了减少网络参数的规模、提高文本匹配的准确度,并使得网络模型在训练阶段的收敛速度更快,在一些实施例中,可以采用孪生网络(Siamese Network)来进行语义特征提取,此外,在采用孪生网络提取语义特征之前,还需要对细粒度子文本进行向量转换,故步骤103可以包括如下步骤:
(1)获取细粒度孪生网络;
(2)对第一文本的细粒度子文本进行细粒度文本嵌入处理,得到第一细粒度向量;
(3)对第二文本的细粒度子文本进行细粒度文本嵌入处理,得到第二细粒度向量;
(4)采用细粒度孪生网络对第一细粒度向量和第二细粒度向量进行语义特征提取,得到第一文本和第二文本的细粒度特征。
其中,细粒度文本嵌入处理是一种将细粒度子文本从文字、数字、符号等书面内容进行编码转换为向量的过程。
文本嵌入(Word Embedding)的方法具有多种,比如,可以采用词袋(Bag-of-Words)模型、FastText(一种嵌入模型)、ELMo(一种嵌入模型)、word2vec(一种嵌入模型)等进行文本嵌入。
其中,细粒度孪生网络处理两个相似的输入得到两个输出时,两个输出向量中相同数据位的结果往往相近,故采用孪生网络的输出来衡量两个输入文本的文本相似度更具有意义,且更加准确。
其中,由于细粒度孪生网络中包括两个相互共享参数的子网络,故在同样的情况下,细粒度孪生网络的参数规模可以减少为其它网络的一半,故细粒度孪生网络所占用的计算机资源更少、计算速度更快,且在训练细粒度孪生网络时,细粒度孪生网络的收敛速度更快。
在一些实施例中,细粒度孪生网络可以包括共享网络参数的第一细粒度子网络和第二细粒度子网络,步骤“采用细粒度孪生网络对第一细粒度向量和第二细粒度向量进行语义特征提取,得到第一文本和第二文本的细粒度特征”可以包括如下步骤:
A.采用第一细粒度子网络对第一细粒度向量进行语义特征提取,得到第一文本的细粒度特征;
B.采用第二细粒度子网络对第二细粒度向量进行语义特征提取,得到第二文本的细粒度特征。
在一些实施例中,为了在提取文本特征时考虑到文本内容在时序上的连续性,从而进一步地提高文本匹配的准确度,故第一细粒度子网络中可以包括循环神经网络(Recurrent Neural Network,RNN)。
其中,时序循环网络是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(RecursiveNeural Network),文本作为一种以文字、符号、数字等构成的序列,其构成单位之间具有时序关系和逻辑关系,故采用时序循环网络可以更准确、全面地提取出文本特征。
其中,时序循环网络可以包括简单循环网络(Simple Recurrent Network,SRN)、长短期记忆网络(Long Short-Term Memory networks,LSTM)、双向长短期记忆网络(bidirectional Long Short-Term Memory networks,Bi-LSTM)、门控循环单元网络(Gated Recurrent Unit networks,GRU)、堆叠循环神经网络(Stacked Recurrent NeuralNetwork,SRNN),等等。
在一些实施例中,为了抽取出更有价值的文本特征,从而进一步地提高文本匹配的准确度,第一细粒度子网络中可以包括注意力网络(Attention Model,AM)。
比如,在一些实施例中,第一细粒度子网络可以包括Bi-LSTM和自注意力网络,该Bi-LSTM中可以包括第一细粒度正向时序记忆网络、第一细粒度逆向时序记忆网络,步骤“采用第一细粒度子网络对第一细粒度向量进行语义特征提取,得到第一文本的细粒度特征”可以包括如下步骤:
a1.采用第一细粒度正向时序记忆网络对第一细粒度向量进行正向时序特征提取,得到第一文本的细粒度正向时序特征;
a2.采用第一细粒度逆向时序记忆网络对第一细粒度向量进行逆向时序特征提取,得到第一文本的细粒度逆向时序特征;
a3.对第一文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第一文本的细粒度全局时序特征;
a4.采用自注意力网络对第一文本的细粒度全局时序特征进行注意力权值分配,得到第一文本的细粒度特征。
由于文本在正向时序和逆向时序上均具有一定的逻辑性,故可以提取文本的正向语义和逆向语义,并将其结合得到的语义可以同时包括该文本在正向时序和逆向时序上特征。
其中,Bi-LSTM可以有效地解决在语义提取过程中,传统RNN所存在的长期依赖问题,本方案实施例采用Bi-LSTM进行语义提取,注重了文本前后文之间的关系,更有逻辑性、时序性地提取文本特征,使得提取得到的文本特征更加准确、全面,从而进一步地提升了文本匹配的准确度。
其中,自注意力网络可以对两个输入的文本特征进行多次关注,从而抽取出更有价值的特征信息,从而进一步地提升了文本匹配的准确度。
类似地,在一些实施例中,步骤“第二细粒度子网络也可以包括Bi-LSTM和自注意力网络,其中,Bi-LSTM包括第二细粒度正向时序记忆网络和第二细粒度逆向时序记忆网络,采用第二细粒度子网络对第二细粒度向量进行语义特征提取,得到第二文本的细粒度特征”可以包括如下步骤:
采用第二细粒度正向时序记忆网络对第二细粒度向量进行正向时序特征提取,得到第二文本的细粒度正向时序特征;
采用第二细粒度逆向时序记忆网络对第二细粒度向量进行逆向时序特征提取,得到第二文本的细粒度逆向时序特征;
对第二文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第二文本的细粒度全局时序特征;
采用自注意力网络对第二文本的细粒度全局时序特征进行注意力权值分配,得到第二文本的细粒度特征。
104、对第一文本和第二文本的粗粒度子文本进行语义特征提取,得到第一文本和第二文本的粗粒度特征。
在本实施例中,可以提取粗粒度子文本的语义特征。
其中,第一文本的粗粒度特征是指在第一文本的粗粒度子文本所对应的语义特征;第二文本的粗粒度特征是指在第二文本的粗粒度子文本所对应的语义特征。
类似于步骤103,为了减少网络参数的规模、提高文本匹配的准确度,并使得网络模型在训练阶段的收敛速度更快,在一些实施例中,可以采用孪生网络来进行语义特征提取,此外,在采用孪生网络提取语义特征之前,还需要对细粒度子文本进行向量转换,故步骤104可以包括如下步骤:
获取粗粒度孪生网络;
对第一文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第一粗粒度向量;
对第二文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第二粗粒度向量;
采用粗粒度孪生网络对第一粗粒度向量和第二粗粒度向量进行语义特征提取,得到第一文本和第二文本的粗粒度特征。
其中,粗粒度孪生网络可以和细粒度孪生网络的网络结构相同,也可以不同。
其中,粗粒度文本嵌入的过程与步骤103中细粒度文本嵌入的过程类似,在此不做赘述。
类似于步骤103,在一些实施例中,粗粒度孪生网络可以包括共享网络参数的第一粗粒度子网络和第二粗粒度子网络,步骤“采用粗粒度孪生网络对第一粗粒度向量和第二粗粒度向量进行语义特征提取,得到第一文本和第二文本的粗粒度特征”可以包括如下步骤:
采用第一粗粒度子网络对第一粗粒度向量进行语义特征提取,得到第一文本的粗粒度特征;
采用第二粗粒度子网络对第二粗粒度向量进行语义特征提取,得到第二文本的粗粒度特征。
其中,对第一粗粒度向量进行语义特征提取的过程与步骤103中对第一细粒度向量进行语义特征提取类似,对第二粗粒度向量进行语义特征提取的过程与步骤103中对第二细粒度向量进行语义特征提取类似,在此不做赘述。
类似于步骤103,在一些实施例中,第一粗粒度子网络可以包括Bi-LSTM和自注意力网络,其中,Bi-LSTM可以包括第一粗粒度正向时序记忆网络和第一粗粒度逆向时序记忆网络,步骤“采用第一粗粒度子网络对第一粗粒度向量进行语义特征提取,得到第一文本的粗粒度特征”可以包括如下步骤:
采用第一粗粒度正向时序记忆网络对第一粗粒度向量进行正向时序特征提取,得到第一文本的粗粒度正向时序特征;
采用第一粗粒度逆向时序记忆网络对第一粗粒度向量进行逆向时序特征提取,得到第一文本的粗粒度逆向时序特征;
对第一文本的粗粒度正向时序特征和粗粒度逆向时序特征进行特征拼接,得到第一文本的粗粒度全局时序特征;
采用自注意力网络对第一文本的粗粒度全局时序特征进行注意力权值分配,得到第一文本的粗粒度特征。
其中,第一粗粒度子网络与步骤103中的第一细粒度子网络类似,在此不做赘述。
类似于步骤103,在一些实施例中,第二粗粒度子网络可以包括Bi-LSTM和自注意力网络,Bi-LSTM可以包括第二粗粒度正向时序记忆网络和第二粗粒度逆向时序记忆网络,步骤“采用第二粗粒度子网络对第二粗粒度向量进行语义特征提取,得到第二文本的粗粒度特征”可以包括如下步骤:
采用第二粗粒度正向时序记忆网络对第二粗粒度向量进行正向时序特征提取,得到第二文本的粗粒度正向时序特征;
采用第二粗粒度逆向时序记忆网络对第二粗粒度向量进行逆向时序特征提取,得到第二文本的粗粒度逆向时序特征;
对第二文本的粗粒度正向时序特征和粗粒度逆向时序特征进行特征拼接,得到第二文本的粗粒度全局时序特征;
采用自注意力网络对第二文本的粗粒度全局时序特征进行注意力权值分配,得到第二文本的粗粒度特征。
其中,第二粗粒度子网络与步骤103中的第二细粒度子网络类似,在此不做赘述。
105、根据第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征。
其中,特征融合的方式具有多种,比如,特征融合的方式可以包括特征拼接、特征并行相加,等等。
为了得到更准确、更全面的多粒度语义特征,在一些实施例中,步骤105可以采用如下步骤来融合细粒度特征和粗粒度特征:
根据第一文本的细粒度特征和粗粒度特征进行特征拼接,得到第一文本的多粒度拼接特征;
根据第二文本的细粒度特征和粗粒度特征进行特征拼接,得到第二文本的多粒度拼接特征;
根据第一文本的多粒度拼接特征和第二文本的多粒度拼接特征进行特征拼接,得到多粒度语义特征。
例如,对于第一文本的细粒度特征[N1]和第一文本的粗粒度特征[W1],拼接后可以得到第一文本的多粒度拼接特征[N1,W1];对于第二文本的细粒度特征[N2]和第二文本的粗粒度特征[W2],拼接后可以得到第二文本的多粒度拼接特征[N2,W2];对于第一文本的多粒度拼接特征[N1,W1]和第二文本的多粒度拼接特征[N2,W2],拼接后可以得到多粒度语义特征[N1,W1,N2,W2]。
106、基于多粒度语义特征预测第一文本和第二文本之间的文本相似度,以判断第一文本和第二文本的匹配情况。
文本相似度是一种用于量化两个文本在语义上是否相似的数值。
在一些实施例中,可以通过汉明距离、编辑距离、Jaccard系数、TF-IDF(TermFrequency-Inverse Document Frequency)直接根据第一文本和第二文本的文本内容来计算其文本相似度。
在一些实施例中,可以通过余弦相似度的计算方式来基于多粒度语义特征预测第一文本和第二文本之间的文本相似度,以判断第一文本和第二文本的匹配情况。
为了实现对多粒度语义特征进行更深层、丰富地分析,从而提高文本相似度的准确度,在一些实施例中,可以采用多层感知机(Multi-layer Perceptron,MLP)的方式计算第一文本和第二文本之间的文本相似度,故步骤106可以包括如下步骤:
获取多层感知机,多层感知机中可以包括至少一个隐藏层;
采用隐藏层对多粒度语义特征进行加权求和处理,得到第一文本和第二文本之间的文本匹配向量;
对文本匹配向量进行归一化处理,得到第一文本和第二文本之间的文本相似度。
其中,多层感知机是一种前向结构的人工神经网络,用于映射一组输入向量到一组输出向量,由多个的节点层所组成,每一层全连接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。
其中,归一化(Normalization)是一种将有量纲的表达式,经过变换化为无量纲的表达式成为标量的方式。
归一化的方式具有多种,比如,可以采用逻辑回归(Logistic Regression)分析法、支持向量机(Support Vector Machine,SVM)法、softmax逻辑回归法,等等。
第一文本和第二文本的匹配情况可以以多种形式表现,比如,可以直接以相似度表现,还可以以相似百分比表现、以所属的预设相似区间表现,等等。
比如,在一些实施例中,第一文本和第二文本的匹配情况可以是相似度数值:2;在在一些实施例中,第一文本和第二文本的匹配情况可以是相似百分比:50%;在一些实施例中,第一文本和第二文本的匹配情况可以是中度相似,即属于中度相似区间[40,60],等等。
由上可知,本发明实施例可以获取第一文本、第二文本;分别对第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;对第一文本和第二文本的细粒度子文本进行语义特征提取,得到第一文本和第二文本的细粒度特征;对第一文本和第二文本的粗粒度子文本进行语义特征提取,得到第一文本和第二文本的粗粒度特征;根据第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;基于多粒度语义特征预测第一文本和第二文本之间的文本相似度,以判断第一文本和第二文本的匹配情况。。
本发明实施例可以在粗粒度和细粒度的尺寸下对文本进行分词处理,用于提取文本的语义特征,使得提取得到的多粒度语义特征结合了不同粒度尺寸下的文本信息,使得多粒度语义特征同时准确地表现了文本在局部和全局的语义信息,从而得到更加准确的预测结果,由此,本发明实施例可以提升文本匹配方法的准确度。
根据上述实施例所描述的方法,以下将作进一步详细说明。
在本实施例中,将以文本匹配方法应用在浏览器搜索场景下为例,对本发明实施例的方法进行详细说明。
如图2a所示,具体应用在浏览器搜索场景下时,利用本发明提供的一种文本匹配方法可以高效、准确地召回问答对(Question and Answer Pair)。
本发明实施例应用在浏览器搜索场景下的流程如下:
(一)获取预设模型并采集训练样本,采用该训练样本训练该预设模型,得到文本匹配模型。
其中,预设模型的模型结构可以参考图2b,该预设模型可以包括输入层、语义表示层和预测层。
其中,输入层可以包括分词层和嵌入层,在本实施例中,嵌入层可以采用word2vec进行文本嵌入。
其中,语义表示层可以包括孪生网络层和向量融合层,该孪生网络层可以由Bi-LSTM网络和自注意力网络构成。
其中,预测层可以由MLP和softmax构成。
获取预设模型的方式具有多种,比如,通过网络从模型数据库中获取、由技术人员构建得到、从本地内存中读取,等等。
每个训练样本都是标注了相似度的两个文本,获取训练样本的方法具有多种,比如,可以由技术人员从文本数据库中获取文本,并对其进行两两之间的相似度标注。
采用训练样本训练该预设模型后可以得到文本匹配模型,以下将以训练样本[Query“天为什么是蓝的”,Question“天空为什么是蓝色的”,标注“98%”]为例介绍训练步骤:
(1)分词层:
首先,在本实施例中,该预设模型的分词层可以对训练样本进行分词处理,分别对其进行字级别的细粒度分词和词级别的粗粒度分词。
得到Query“天为什么是蓝的”的词级别分词“天”、“为什么”、“是”、“蓝”、“的”,以及字级别分词“天”、“为”、“什”、“么”、“是”、“蓝”、“的”。
Question“天空为什么是蓝色的”的词级别分词“天空”、“为什么”、“是”、“蓝色”、“的”,以及字级别分词“天”、“空”、“为”、“什”、“么”、“是”、“蓝”、“色”、“的”。
(2)嵌入层:
在本实施例中,嵌入层由词嵌入网络和字嵌入网络构成。
在该预设模型的嵌入层可以对上述Query和Question的字级别细粒度分词和词级别细粒度分词进行向量变换,将每个字/词转化为其对应的词/字向量表示,Query对应的词级别表示为wqr1、wqr2…wqrn,Query对应的字级别表示为wqs1、wqs2…wqsm;Question对应的词级别表示为cqr1、cqr2…cqrN,Question对应的字级别表示为cqs1、cqs2…cqsM。
在本实施例中,词嵌入网络和字嵌入网络构成可以是训练好的word2vec模型,在本实施例中,word2vec模型可以先随机初始化,而后随着预设模型一同训练更新。
(3)孪生网络层:
在本实施例中,孪生网络层中包括两个孪生网络,每个孪生网络由两个共享参数的Bi-LSTM和自注意力网络构成。
其中,Bi-LSTM包括一个正向LSTM和一个逆向的LSTM,假设输入序列为{e1,e2,…,en},正向LSTM中t时刻的隐层状态
Figure BDA0002445554290000171
计算方法如下:
Figure BDA0002445554290000172
Figure BDA0002445554290000181
Figure BDA0002445554290000182
Figure BDA0002445554290000183
Figure BDA0002445554290000184
Figure BDA0002445554290000185
其中,
Figure BDA0002445554290000186
为正向LSTM中t时刻输出门的值,
Figure BDA0002445554290000187
为正向LSTM中t时刻记忆门的值,
Figure BDA0002445554290000188
为正向LSTM中t时刻遗忘门的值,
Figure BDA0002445554290000189
为正向LSTM中t时刻的临时细胞状态,
Figure BDA00024455542900001810
为正向LSTM中t时刻的细胞状态。
Figure BDA00024455542900001811
为正向LSTM中输出门的权重,
Figure BDA00024455542900001812
为正向LSTM中输出门的偏置,Wi fw为正向LSTM中记忆门的权重,
Figure BDA00024455542900001813
为正向LSTM中记忆门的偏置,
Figure BDA00024455542900001814
为正向LSTM中遗忘门的权重,
Figure BDA00024455542900001815
为正向LSTM中遗忘门的偏置,
Figure BDA00024455542900001816
为正向LSTM中细胞的权重,
Figure BDA00024455542900001817
为正向LSTM中细胞的偏置。
类似地,逆向的LSTM中t时刻的隐层状态
Figure BDA00024455542900001818
计算方法如下:
Figure BDA00024455542900001819
Figure BDA00024455542900001820
Figure BDA00024455542900001821
Figure BDA00024455542900001822
Figure BDA00024455542900001823
Figure BDA00024455542900001824
其中,
Figure BDA00024455542900001825
为逆向LSTM中t时刻输出门的值,
Figure BDA00024455542900001826
为逆向LSTM中t时刻记忆门的值,
Figure BDA00024455542900001827
为逆向LSTM中t时刻遗忘门的值,
Figure BDA00024455542900001828
为逆向LSTM中t时刻的临时细胞状态,
Figure BDA00024455542900001829
为逆向LSTM中t时刻的细胞状态。
Figure BDA00024455542900001830
为逆向LSTM中输出门的权重,
Figure BDA00024455542900001831
为逆向LSTM中输出门的偏置,Wi bw为逆向LSTM中记忆门的权重,
Figure BDA00024455542900001832
为逆向LSTM中记忆门的偏置,
Figure BDA00024455542900001833
为逆向LSTM中遗忘门的权重,
Figure BDA00024455542900001834
为逆向LSTM中遗忘门的偏置,
Figure BDA00024455542900001835
为逆向LSTM中细胞的权重,
Figure BDA00024455542900001836
为逆向LSTM中细胞的偏置。
其中,σ为sigmoid函数。
Bi-LSTM第t时刻的隐层状态ht可以由正向的LSTM中t时刻的隐层状态
Figure BDA0002445554290000191
和逆向的LSTM中t时刻的隐层状态
Figure BDA0002445554290000192
拼接而成:
Figure BDA0002445554290000193
最后,得到输出向量H:
H=(h1,h2,h3…hn)
在本实施例中,输出向量H可以作为计算注意力权值分配向量a的依据,其中,W1是一个参数矩阵,W2是一个参数向量,注意力权值分配向量a计算方式如下:
a=softmax(W2tanh(W1HT))
基于自注意力机制,可以根据当前输入的整体信息,自发地学习到需要关注的重要信息区域,从而构建一个关注向量m,关注向量m的计算方式如下:
m=aH
由于一个关注向量通常只能关注句子语义的某一个方面或某一个组成部分,如一组相关的字或词,但一个句子可能有多个组成部分,共同构成整个句子的整体语义。故在本实施例中可以采用关注矩阵M来进行多次关注。
H仍用来计算注意力权值分配矩阵A,具体地,注意力权值分配矩阵A的计算公式为:
A=softmax(W2tanh(W1HT))
此时,关注向量m变为关注矩阵M:
M=AH
其中,W1,W2为两个参数矩阵。
由于关注矩阵M获取了足够多的语义信息,故将关注矩阵拉平后可以得到一个可以表达完整语义的语义向量。
由此,在语义表示层可以对Query对应的词级别向量wqr1、wqr2…wqrn进行特征提取,得到Query对应的词级别语义特征[Query_word_vector],以及,对Question对应的词级别向量cqr1、cqr2…cqrN进行特征提取,得到Question对应的词级别语义特征[Question_word_vector]。
对Query对应的字级别向量wqs1、wqs2…wqsm进行特征提取,得到Query对应的字级别语义特征[Query_char_vector],以及,对Question对应的字级别向量cqs1、cqs2…cqsM进行特征提取,得到Question对应的字级别语义特征[Question_char_vector]。
(4)向量融合层:
在本实施例中,向量融合层可以对Query对应的词级别语义特征[Query_word_vector]和字级别语义特征[Query_char_vector]进行向量拼接,得到Query的多粒度语义特征q1
q1=[Query_word_vector,Query_char_vector]
以及,对Question对应的词级别语义特征[Question_word_vector]和字级别语义特征[Question_char_vector]进行向量拼接,得到Question的多粒度语义特征q1
q2=[Question_word_vector,Question_char_vector]
最后可以采用多方式向量融合得到多粒度语义特征v,以达到特征增强的效果:
v=[q1,q2,q1+q2,q1-q2,|q1-q2|,q1⊙q2]
(5)预测层:
在本实施例中,预测层可以包括两个前馈神经网络(及MLP)以及softmax分类器,用于根据上述多粒度语义特征v来预测Query和Question之间的文本相似分类结果
Figure BDA0002445554290000201
Figure BDA0002445554290000202
其中,
Figure BDA0002445554290000203
W、b分别为权重与偏置参数,预测分类标签为1的概率y(1)即是Query和Question的文本相似度。
在训练过程中,所有参数将根据最终的目标损失函数的求导操作而进行更新。作为分类任务,目标损失函数可以采用交叉熵损失函数LOSS:
Figure BDA0002445554290000204
其中,|D|为训练集规模,yi为第i个训练样本对应的标注,
Figure BDA0002445554290000205
则为模型预测的得到的文本相似度。
(二)获取用户输入的用户问题文本,以及从数据库中获取标准问题文本。
其中,用户问题文本(Query)是由用户输入的问题,标准问题文本(Question)是FAQ(Frequently Asked Questions)数据库中录入的标准问题。
参考图2a,用户可以在浏览器中输入用户问题文本“天为什么是蓝的”。
(三)采用文本匹配模型计算用户问题文本和标准问题文本之间的文本相似度。
采用本实施例训练得到的文本匹配模型,可以根据用户问题文本“天为什么是蓝的”匹配FAQ数据库中录入的标准问题。
比如,FAQ数据库中录入的标准问题文本包括“天空为什么是蓝色的?”、“天空为什么是蓝色的呢”、“天为什么是蓝色的简答”,等等。
(四)根据文本相似度对标准问题文本进行排序,得到相似问题文本,以及,在数据库中查找与用户问题文本最相似的相似问题文本所对应的标准回答文本。
根据上述得到的文本相似度可以对上述FAQ数据库中录入的标准问题文本进行排序,可以得到前10个最相似的标准问题文本作为相似问题文本,如表1所示:
排序序号 标准问题文本 文本相似度
1 天空为什么是蓝色的? 98%
2 天空为什么是蓝色的呢 97%
3 天为什么是蓝色的简答 87%
4 天空是蓝的运用的物理知识 79%
5 天空为什么是蓝色的妙答 76%
6 天空为什么是蓝色的阅读答案 66%
7 天空是湛蓝的原因 62%
8 蓝蓝的天空 50%
9 蔚蓝的天 43%
10 蓝天白云 27%
表1
根据表1可以确定与用户问题文本最相似的相似问题文本是“天空为什么是蓝色的?”,故可以在FAQ数据库中查找“天空为什么是蓝色的?”所对应的标准回答文本。
问答对是指预先准备好的标准问题文本,及其对应的标准回答文本,问答对之间可以为一一对应的关系,也可以存在一对多、多对一、多对多的关系。
FAQ数据库中可以包括多个问答对,其中,问答对可以用于自动问答,为用户提供咨询服务,比如,FAQ数据库中可以包括一些用户常见的问题,以及对这些问题的回答,每当用户向服务器发送的问题中包含了FAQ数据库中的用户常见问题,服务器就可以返回标准回答文本来实现对用户的实时在线帮助。
比如,参考表2,在FAQ数据库中可以以表格的形式保存一一对应的问答对,表2如下:
Figure BDA0002445554290000221
表2
根据表1可以确定用户问题文本最相似的相似问题文本是“天空为什么是蓝色的?”,在FAQ数据库中可以查找到“天空为什么是蓝色的?”所对应的标准回答文本是“太阳光里可见光有七种颜色,当太阳光透过大气层,波长短、频率高的蓝、靛、紫光会更多的参与散射,而散射的结果是蓝光会在各个方向被看见,所以天是蓝的”。
(五)将标准回答文本和排序结果发送给用户终端,以便用户终端在浏览器中显示标准回答文本和排序结果。
参考图2a,将标准回答文本“太阳光里可见光有七种颜色,当太阳光透过大气层,波长短、频率高的蓝、靛、紫光会更多的参与散射,而散射的结果是蓝光会在各个方向被看见,所以天是蓝的”和排序结果(即表2)发送给用户终端后,用户可以看到浏览器中显示的问答结果,以及与用户可能想搜索的联想语句。
发明人经过测试发现,本发明能够为浏览器的搜索页面增加一定的曝光量和访问量,通过该方案匹配的问答对能更好地的满足用户需求。相比于现有的文本匹配方法,本发明具有更高的准确率和召回率。
由上可知,本发明可以通过细粒度以及粗粒度的文本特征提取,来结合两个不同粒度尺度的信息,从而实现对文本的语义信息更深、更广的挖掘,特别在文本较长的情况下,本发明可以定位到关键字、关键词和关键短语,从而从局部和全局角度考虑文本的特征,减少了未登录词对文本匹配任务的影响。
本发明采用孪生网络可以共享参数,使得参数规模减少为原来的一半,网络收敛速度更快,且预测效率更高,同时,在处理相似的输入时,得到的两个输出向量中对应数据位的结果具有相同的含义,故采用该输出向量来衡量两个输入文本的文本相似度就更具有意义、更加准确。
本发明采用Bi-LSTM可以有效地解决传统RNN存在的长期依赖问题。
本发明提出的自注意力机制可以对输入文本进行多次关注,从而够抽取出对文本匹配任务更有价值的语义信息。
本发明采用多种方式进行向量融合,并采用多层感知机替代以往常用的余弦相似度计算方式,可以获得更为丰富的语义匹配特征。
由此,本发明实施例可以提升文本匹配方法的准确度。
为了更好地实施以上方法,本发明实施例还提供一种文本匹配装置,该文本匹配装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以文本匹配装置具体集成在XX为例,对本发明实施例的方法进行详细说明。
例如,如图3所示,该文本匹配装置可以包括获取单元301、分词单元302、细粒度单元303、粗粒度单元304、融合单元305以及预测单元306,如下:
(一)获取单元301。
获取单元301可以用于获取第一文本、第二文本。
(二)分词单元302。
分词单元302可以用于分别对第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本。
在一些实施例中,细粒度子文本可以包括字级别子文本,粗粒度子文本可以包括词级别子文本,分词单元302可以用于:
对第一文本进行字级别分词处理,得到第一文本的字级别子文本;
对第一文本进行词级别分词处理,得到第一文本的词级别子文本;
对第二文本进行字级别分词处理,得到第二文本的字级别子文本;
对第二文本进行词级别分词处理,得到第二文本的词级别子文本。
(三)细粒度单元303。
细粒度单元303可以用于对第一文本和第二文本的细粒度子文本进行语义特征提取,得到第一文本和第二文本的细粒度特征。
在一些实施例中,细粒度单元303可以包括细粒度网络子单元、第一细粒度嵌入子单元、第二细粒度嵌入子单元和细粒度子单元,如下:
(1)细粒度网络子单元。
细粒度网络子单元可以用于获取细粒度孪生网络。
(2)第一细粒度嵌入子单元。
第一细粒度嵌入子单元可以用于对第一文本的细粒度子文本进行细粒度文本嵌入处理,得到第一细粒度向量。
(3)第二细粒度嵌入子单元。
第二细粒度嵌入子单元可以用于对第二文本的细粒度子文本进行细粒度文本嵌入处理,得到第二细粒度向量。
(4)细粒度子单元。
细粒度子单元可以用于采用细粒度孪生网络对第一细粒度向量和第二细粒度向量进行语义特征提取,得到第一文本和第二文本的细粒度特征。
在一些实施例中,细粒度孪生网络可以包括共享网络参数的第一细粒度子网络和第二细粒度子网络,细粒度子单元可以包括第一细粒度子模块和第二细粒度子模块,如下:
A.第一细粒度子模块。
第一细粒度子模块可以用于采用第一细粒度子网络对第一细粒度向量进行语义特征提取,得到第一文本的细粒度特征。
在一些实施例中,第一细粒度子网络可以包括第一细粒度正向时序记忆网络、第一细粒度逆向时序记忆网络和自注意力网络,第一细粒度子模块可以用于:
a1.采用第一细粒度正向时序记忆网络对第一细粒度向量进行正向时序特征提取,得到第一文本的细粒度正向时序特征;
a2.采用第一细粒度逆向时序记忆网络对第一细粒度向量进行逆向时序特征提取,得到第一文本的细粒度逆向时序特征;
a3.对第一文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第一文本的细粒度全局时序特征;
a4.采用自注意力网络对第一文本的细粒度全局时序特征进行注意力权值分配,得到第一文本的细粒度特征。
B.第二细粒度子模块。
第二细粒度子模块可以用于采用第二细粒度子网络对第二细粒度向量进行语义特征提取,得到第二文本的细粒度特征。
在一些实施例中,第二细粒度子网络可以包括第二细粒度正向时序记忆网络、第二细粒度逆向时序记忆网络和自注意力网络,第二细粒度子模块可以用于:
b1.采用第二细粒度正向时序记忆网络对第二细粒度向量进行正向时序特征提取,得到第二文本的细粒度正向时序特征;
b2.采用第二细粒度逆向时序记忆网络对第二细粒度向量进行逆向时序特征提取,得到第二文本的细粒度逆向时序特征;
b3.对第二文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第二文本的细粒度全局时序特征;
b4.采用自注意力网络对第二文本的细粒度全局时序特征进行注意力权值分配,得到第二文本的细粒度特征。
(四)粗粒度单元304。
粗粒度单元304可以用于对第一文本和第二文本的粗粒度子文本进行语义特征提取,得到第一文本和第二文本的粗粒度特征。
在一些实施例中,粗粒度单元304可以包括粗粒度网络子单元、第一粗粒度嵌入子单元、第二粗粒度嵌入子单元和粗粒度子单元,如下:
(1)粗粒度网络子单元。
粗粒度网络子单元可以用于获取粗粒度孪生网络。
(2)第一粗粒度嵌入子单元。
第一粗粒度嵌入子单元可以用于对第一文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第一粗粒度向量。
(3)第二粗粒度嵌入子单元。
第二粗粒度嵌入子单元可以用于对第二文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第二粗粒度向量。
(4)粗粒度子单元。
粗粒度子单元可以用于采用粗粒度孪生网络对第一粗粒度向量和第二粗粒度向量进行语义特征提取,得到第一文本和第二文本的粗粒度特征。
在一些实施例中,粗粒度孪生网络可以包括共享网络参数的第一粗粒度子网络和第二粗粒度子网络,粗粒度子单元可以包括第一粗粒度子模块和第二粗粒度子模块,如下:
A.第一粗粒度子模块。
第一粗粒度子模块可以用于采用第一粗粒度子网络对第一粗粒度向量进行语义特征提取,得到第一文本的粗粒度特征。
在一些实施例中,第一粗粒度子网络可以包括第一粗粒度正向时序记忆网络、第一粗粒度逆向时序记忆网络和自注意力网络,第一粗粒度子模块可以用于:
a1.采用第一粗粒度正向时序记忆网络对第一粗粒度向量进行正向时序特征提取,得到第一文本的粗粒度正向时序特征;
a2.采用第一粗粒度逆向时序记忆网络对第一粗粒度向量进行逆向时序特征提取,得到第一文本的粗粒度逆向时序特征;
a3.对第一文本的粗粒度正向时序特征和粗粒度逆向时序特征进行特征拼接,得到第一文本的粗粒度全局时序特征;
a4.采用自注意力网络对第一文本的粗粒度全局时序特征进行注意力权值分配,得到第一文本的粗粒度特征。
B.第二粗粒度子模块。
第二粗粒度子模块可以用于采用第二粗粒度子网络对第二粗粒度向量进行语义特征提取,得到第二文本的粗粒度特征。
在一些实施例中,第二粗粒度子网络可以包括第二粗粒度正向时序记忆网络、第二粗粒度逆向时序记忆网络和自注意力网络,第二粗粒度子模块可以用于:
b1.采用第二粗粒度正向时序记忆网络对第二粗粒度向量进行正向时序特征提取,得到第二文本的粗粒度正向时序特征;
b2.采用第二粗粒度逆向时序记忆网络对第二粗粒度向量进行逆向时序特征提取,得到第二文本的粗粒度逆向时序特征;
b3.对第二文本的粗粒度正向时序特征和粗粒度逆向时序特征进行特征拼接,得到第二文本的粗粒度全局时序特征;
b4.采用自注意力网络对第二文本的粗粒度全局时序特征进行注意力权值分配,得到第二文本的粗粒度特征。
(五)融合单元305。
融合单元305可以用于根据第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征。
在一些实施例中,融合单元305可以用于:
根据第一文本的细粒度特征和粗粒度特征进行特征拼接,得到第一文本的多粒度拼接特征;
根据第二文本的细粒度特征和粗粒度特征进行特征拼接,得到第二文本的多粒度拼接特征;
根据第一文本的多粒度拼接特征和第二文本的多粒度拼接特征进行特征拼接,得到多粒度语义特征。
(六)预测单元306。
预测单元306可以用于基于多粒度语义特征预测第一文本和第二文本之间的文本相似度,以判断第一文本和第二文本的匹配情况。
在一些实施例中,预测单元306可以用于:
获取多层感知机,多层感知机中包括至少一个隐藏层;
采用隐藏层对多粒度语义特征进行加权求和处理,得到第一文本和第二文本之间的文本匹配向量;
对文本匹配向量进行归一化处理,得到第一文本和第二文本之间的文本相似度。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的文本匹配装置由获取单元获取第一文本、第二文本;由分词单元分别对第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;由细粒度单元对第一文本和第二文本的细粒度子文本进行语义特征提取,得到第一文本和第二文本的细粒度特征;由粗粒度单元对第一文本和第二文本的粗粒度子文本进行语义特征提取,得到第一文本和第二文本的粗粒度特征;由融合单元根据第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;由预测单元基于多粒度语义特征预测第一文本和第二文本之间的文本相似度,以判断第一文本和第二文本的匹配情况。
由此,本发明实施例可以提升文本匹配方法的准确度。
本发明实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该文本匹配装置还可以集成在多个电子设备中,比如,文本匹配装置可以集成在多个服务器中,由多个服务器来实现本发明的文本匹配方法。
在本实施例中,将以本实施例的电子设备是服务器为例进行详细描述,比如,如图4所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。在一些实施例中,处理器401可包括一个或多个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入模块404,该输入模块404可用于接收输入的数细粒度或细粒度符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括通信模块405,在一些实施例中通信模块405可以包括无线模块,服务器可以通过该通信模块405的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取第一文本、第二文本;
分别对第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;
对第一文本和第二文本的细粒度子文本进行语义特征提取,得到第一文本和第二文本的细粒度特征;
对第一文本和第二文本的粗粒度子文本进行语义特征提取,得到第一文本和第二文本的粗粒度特征;
根据第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;
基于多粒度语义特征预测第一文本和第二文本之间的文本相似度,以判断第一文本和第二文本的匹配情况。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本发明实施例可以提升文本匹配方法的准确度。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种文本匹配方法中的步骤。例如,该指令可以执行如下步骤:
获取第一文本、第二文本;
分别对第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;
对第一文本和第二文本的细粒度子文本进行语义特征提取,得到第一文本和第二文本的细粒度特征;
对第一文本和第二文本的粗粒度子文本进行语义特征提取,得到第一文本和第二文本的粗粒度特征;
根据第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;
基于多粒度语义特征预测第一文本和第二文本之间的文本相似度,以判断第一文本和第二文本的匹配情况。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种文本匹配方法中的步骤,因此,可以实现本发明实施例所提供的任一种文本匹配方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种文本匹配方法、装置、服务器和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种文本匹配方法,其特征在于,包括:
获取第一文本、第二文本;
分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;
对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征;
对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征;
根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;
基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,以判断所述第一文本和第二文本的匹配情况。
2.如权利要求1所述的文本匹配方法,其特征在于,所述对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征,包括:
获取细粒度孪生网络;
对所述第一文本的细粒度子文本进行细粒度文本嵌入处理,得到第一细粒度向量;
对所述第二文本的细粒度子文本进行细粒度文本嵌入处理,得到第二细粒度向量;
采用所述细粒度孪生网络对所述第一细粒度向量和第二细粒度向量进行语义特征提取,得到所述第一文本和第二文本的细粒度特征。
3.如权利要求2所述的文本匹配方法,其特征在于,所述细粒度孪生网络包括共享网络参数的第一细粒度子网络和第二细粒度子网络;
所述采用所述细粒度孪生网络对所述第一细粒度向量和第二细粒度向量进行语义特征提取,得到所述第一文本和第二文本的细粒度特征,包括:
采用所述第一细粒度子网络对所述第一细粒度向量进行语义特征提取,得到所述第一文本的细粒度特征;
采用所述第二细粒度子网络对所述第二细粒度向量进行语义特征提取,得到所述第二文本的细粒度特征。
4.如权利要求3所述的文本匹配方法,其特征在于,所述第一细粒度子网络包括第一细粒度正向时序记忆网络、第一细粒度逆向时序记忆网络和自注意力网络;
所述采用所述第一细粒度子网络对所述第一细粒度向量进行语义特征提取,得到所述第一文本的细粒度特征,包括:
采用所述第一细粒度正向时序记忆网络对所述第一细粒度向量进行正向时序特征提取,得到所述第一文本的细粒度正向时序特征;
采用所述第一细粒度逆向时序记忆网络对所述第一细粒度向量进行逆向时序特征提取,得到所述第一文本的细粒度逆向时序特征;
对所述第一文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第一文本的细粒度全局时序特征;
采用所述自注意力网络对所述第一文本的细粒度全局时序特征进行注意力权值分配,得到所述第一文本的细粒度特征。
5.如权利要求3所述的文本匹配方法,其特征在于,所述第二细粒度子网络包括第二细粒度正向时序记忆网络、第二细粒度逆向时序记忆网络和自注意力网络;
所述采用所述第二细粒度子网络对所述第二细粒度向量进行语义特征提取,得到所述第二文本的细粒度特征,包括:
采用所述第二细粒度正向时序记忆网络对所述第二细粒度向量进行正向时序特征提取,得到所述第二文本的细粒度正向时序特征;
采用所述第二细粒度逆向时序记忆网络对所述第二细粒度向量进行逆向时序特征提取,得到所述第二文本的细粒度逆向时序特征;
对所述第二文本的细粒度正向时序特征和细粒度逆向时序特征进行特征拼接,得到第二文本的细粒度全局时序特征;
采用所述自注意力网络对所述第二文本的细粒度全局时序特征进行注意力权值分配,得到所述第二文本的细粒度特征。
6.如权利要求1所述的文本匹配方法,其特征在于,所述对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征,包括:
获取粗粒度孪生网络;
对所述第一文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第一粗粒度向量;
对所述第二文本的粗粒度子文本进行粗粒度文本嵌入处理,得到第二粗粒度向量;
采用所述粗粒度孪生网络对所述第一粗粒度向量和第二粗粒度向量进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征。
7.如权利要求6所述的文本匹配方法,其特征在于,所述粗粒度孪生网络包括共享网络参数的第一粗粒度子网络和第二粗粒度子网络;
所述采用所述粗粒度孪生网络对所述第一粗粒度向量和第二粗粒度向量进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征,包括:
采用所述第一粗粒度子网络对所述第一粗粒度向量进行语义特征提取,得到所述第一文本的粗粒度特征;
采用所述第二粗粒度子网络对所述第二粗粒度向量进行语义特征提取,得到所述第二文本的粗粒度特征。
8.如权利要求7所述的文本匹配方法,其特征在于,所述第一粗粒度子网络包括第一粗粒度正向时序记忆网络、第一粗粒度逆向时序记忆网络和自注意力网络;
所述采用所述第一粗粒度子网络对所述第一粗粒度向量进行语义特征提取,得到所述第一文本的粗粒度特征,包括:
采用所述第一粗粒度正向时序记忆网络对所述第一粗粒度向量进行正向时序特征提取,得到所述第一文本的粗粒度正向时序特征;
采用所述第一粗粒度逆向时序记忆网络对所述第一粗粒度向量进行逆向时序特征提取,得到所述第一文本的粗粒度逆向时序特征;
对所述第一文本的粗粒度正向时序特征和粗粒度逆向时序特征进行特征拼接,得到第一文本的粗粒度全局时序特征;
采用所述自注意力网络对所述第一文本的粗粒度全局时序特征进行注意力权值分配,得到所述第一文本的粗粒度特征。
9.如权利要求7所述的文本匹配方法,其特征在于,所述第二粗粒度子网络包括第二粗粒度正向时序记忆网络、第二粗粒度逆向时序记忆网络和自注意力网络;
所述采用所述第二粗粒度子网络对所述第二粗粒度向量进行语义特征提取,得到所述第二文本的粗粒度特征,包括:
采用所述第二粗粒度正向时序记忆网络对所述第二粗粒度向量进行正向时序特征提取,得到所述第二文本的粗粒度正向时序特征;
采用所述第二粗粒度逆向时序记忆网络对所述第二粗粒度向量进行逆向时序特征提取,得到所述第二文本的粗粒度逆向时序特征;
对所述第二文本的粗粒度正向时序特征和粗粒度逆向时序特征进行特征拼接,得到第二文本的粗粒度全局时序特征;
采用所述自注意力网络对所述第二文本的粗粒度全局时序特征进行注意力权值分配,得到所述第二文本的粗粒度特征。
10.如权利要求1所述的文本匹配方法,其特征在于,所述根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征,包括:
根据所述第一文本的细粒度特征和粗粒度特征进行特征拼接,得到第一文本的多粒度拼接特征;
根据所述第二文本的细粒度特征和粗粒度特征进行特征拼接,得到第二文本的多粒度拼接特征;
根据所述第一文本的多粒度拼接特征和第二文本的多粒度拼接特征进行特征拼接,得到多粒度语义特征。
11.如权利要求1所述的文本匹配方法,其特征在于,所述细粒度子文本包括字级别子文本,粗粒度子文本包括词级别子文本;
所述分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本,包括:
对所述第一文本进行字级别分词处理,得到第一文本的字级别子文本;
对所述第一文本进行词级别分词处理,得到第一文本的词级别子文本;
对所述第二文本进行字级别分词处理,得到第二文本的字级别子文本;
对所述第二文本进行词级别分词处理,得到第二文本的词级别子文本。
12.如权利要求1所述的文本匹配方法,其特征在于,所述基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,包括:
获取多层感知机,所述多层感知机中包括至少一个隐藏层;
采用所述隐藏层对所述多粒度语义特征进行加权求和处理,得到所述第一文本和第二文本之间的文本匹配向量;
对所述文本匹配向量进行归一化处理,得到所述第一文本和第二文本之间的文本相似度。
13.一种文本匹配装置,其特征在于,包括:
获取单元,用于获取第一文本、第二文本;
分词单元,用于分别对所述第一文本和第二文本进行多粒度分词处理,得到第一文本的细粒度子文本和粗粒度子文本,以及第二文本的细粒度子文本和粗粒度子文本;
细粒度单元,用于对所述第一文本和第二文本的细粒度子文本进行语义特征提取,得到所述第一文本和第二文本的细粒度特征;
粗粒度单元,用于对所述第一文本和第二文本的粗粒度子文本进行语义特征提取,得到所述第一文本和第二文本的粗粒度特征;
融合单元,用于根据所述第一文本和第二文本的细粒度特征和粗粒度特征进行特征融合,得到多粒度语义特征;
预测单元,用于基于所述多粒度语义特征预测所述第一文本和第二文本之间的文本相似度,以判断所述第一文本和第二文本的匹配情况。
14.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~12任一项所述的文本匹配方法中的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~12任一项所述的文本匹配方法中的步骤。
CN202010278234.8A 2020-04-10 2020-04-10 文本匹配方法、装置、服务器和存储介质 Pending CN111522926A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010278234.8A CN111522926A (zh) 2020-04-10 2020-04-10 文本匹配方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010278234.8A CN111522926A (zh) 2020-04-10 2020-04-10 文本匹配方法、装置、服务器和存储介质

Publications (1)

Publication Number Publication Date
CN111522926A true CN111522926A (zh) 2020-08-11

Family

ID=71911500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010278234.8A Pending CN111522926A (zh) 2020-04-10 2020-04-10 文本匹配方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN111522926A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100379A (zh) * 2020-09-15 2020-12-18 北京百度网讯科技有限公司 用于处理数据的方法、装置、设备以及存储介质
CN113255780A (zh) * 2021-05-28 2021-08-13 润联软件系统(深圳)有限公司 一种减速箱故障预测方法、装置、计算机设备及存储介质
CN113641800A (zh) * 2021-10-18 2021-11-12 中国铁道科学研究院集团有限公司科学技术信息研究所 一种文本查重方法、装置、设备及可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100379A (zh) * 2020-09-15 2020-12-18 北京百度网讯科技有限公司 用于处理数据的方法、装置、设备以及存储介质
CN112100379B (zh) * 2020-09-15 2023-07-28 北京百度网讯科技有限公司 用于处理数据的方法、装置、设备以及存储介质
CN113255780A (zh) * 2021-05-28 2021-08-13 润联软件系统(深圳)有限公司 一种减速箱故障预测方法、装置、计算机设备及存储介质
CN113255780B (zh) * 2021-05-28 2024-05-03 润联智能科技股份有限公司 一种减速箱故障预测方法、装置、计算机设备及存储介质
CN113641800A (zh) * 2021-10-18 2021-11-12 中国铁道科学研究院集团有限公司科学技术信息研究所 一种文本查重方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109753566B (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
Rao et al. Actionable and political text classification using word embeddings and LSTM
CN109992773B (zh) 基于多任务学习的词向量训练方法、系统、设备及介质
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN111522926A (zh) 文本匹配方法、装置、服务器和存储介质
Hu et al. Quantized STDP-based online-learning spiking neural network
CN112287656B (zh) 文本比对方法、装置、设备和存储介质
CN111814453A (zh) 基于BiLSTM-TextCNN的细粒度情感分析方法
CN111563158A (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
Guo et al. Who is answering whom? Finding “Reply-To” relations in group chats with deep bidirectional LSTM networks
CN110750998A (zh) 一种文本输出方法、装置、计算机设备和存储介质
Tao et al. News text classification based on an improved convolutional neural network
Karimvand et al. Sentiment analysis of persian instagram post: a multimodal deep learning approach
Srinivasarao et al. Sentiment analysis from email pattern using feature selection algorithm
Zhen et al. The research of convolutional neural network based on integrated classification in question classification
CN114611692A (zh) 模型训练方法、电子设备以及存储介质
Zhang et al. NAS4FBP: Facial beauty prediction based on neural architecture search
CN112364652A (zh) 基于多通道卷积的文本实体关系抽取方法及系统
CN111414755A (zh) 一种基于细粒度情感字典的网络情绪分析方法
Rakshit et al. A supervised deep learning-based sentiment analysis by the implementation of Word2Vec and GloVe Embedding techniques
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN115129930A (zh) 一种视频的信息处理方法、装置、计算机设备和存储介质
Fu et al. Mixed word representation and minimal Bi-GRU model for sentiment analysis
CN111177493B (zh) 数据处理方法、装置、服务器和存储介质
Li et al. SCX-SD: semi-supervised method for contextual sarcasm detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40029140

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination