CN113761887A - 基于文本处理的匹配方法、装置、计算机设备和存储介质 - Google Patents

基于文本处理的匹配方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113761887A
CN113761887A CN202110448628.8A CN202110448628A CN113761887A CN 113761887 A CN113761887 A CN 113761887A CN 202110448628 A CN202110448628 A CN 202110448628A CN 113761887 A CN113761887 A CN 113761887A
Authority
CN
China
Prior art keywords
content
semantic
participle
target
candidate matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110448628.8A
Other languages
English (en)
Inventor
杨韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110448628.8A priority Critical patent/CN113761887A/zh
Publication of CN113761887A publication Critical patent/CN113761887A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请实施例公开了一种基于文本处理的匹配方法、装置、计算机设备和存储介质;本申请实施例可以获取待处理文本,所述待处理文本包括待匹配的目标分词、以及与所述目标分词在语义层面上具有关联关系的关联分词;确定所述目标分词的候选匹配内容集,所述候选匹配内容集包括所述目标分词的至少一个候选匹配内容,每个所述候选匹配内容具有对应的内容描述信息;基于所述目标分词与所述关联分词之间的关联关系、以及所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义匹配度;基于所述语义匹配度,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。该方案可以提高针对文本中分词的内容匹配效率。

Description

基于文本处理的匹配方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种基于文本处理的匹配方法、装置、计算机设备和存储介质。
背景技术
在对文本进行处理的过程中,对文本中的分词进行内容匹配,旨在确定文本中的分词所表征的含义或该分词所指代的内容,这在自然语言处理的众多产品中都具有非常广泛的应用。
在对相关技术的研究和实践过程中,本申请的发明人发现,目前在对待处理文本中的目标分词进行内容匹配时,是通过在待处理文本中聚焦于该目标分词来进行内容匹配的,这会使得针对分词的内容匹配方法还有待提高,例如,匹配效率与准确率均有待提高。
发明内容
本申请实施例提供一种基于文本处理的匹配方法、装置、计算机设备和存储介质,可以提高针对文本中分词的内容匹配效率。
本申请实施例提供一种基于文本处理的匹配方法,包括:
获取待处理文本,其中,所述待处理文本包括待匹配的目标分词、以及与所述目标分词在语义层面上具有关联关系的关联分词;
确定所述目标分词的候选匹配内容集,其中,所述候选匹配内容集包括所述目标分词的至少一个候选匹配内容,每个所述候选匹配内容具有对应的内容描述信息;
基于所述目标分词与所述关联分词之间的关联关系、以及所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义匹配度;
基于所述语义匹配度,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
相应的,本申请实施例还提供一种基于文本处理的匹配装置,包括:
获取单元,用于获取待处理文本,其中,所述待处理文本包括待匹配的目标分词、以及与所述目标分词在语义层面上具有关联关系的关联分词;
确定单元,用于确定所述目标分词的候选匹配内容集,其中,所述候选匹配内容集包括所述目标分词的至少一个候选匹配内容,每个所述候选匹配内容具有对应的内容描述信息;
计算单元,用于基于所述目标分词与所述关联分词之间的关联关系、以及所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义匹配度;
输出单元,用于基于所述语义匹配度,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
在一实施例中,所述计算单元,包括:
第一计算子单元,用于基于所述目标分词与所述关联分词之间的关联关系,计算所述目标分词与所述候选匹配内容的语义关联度,其中,所述语义关联度表征所述目标分词与所述候选匹配内容在语义层面上的关联程度;
第二计算子单元,用于基于所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义相似度,其中,所述语义相似度表征所述目标分词与所述候选匹配内容在语义层面上的相似层度;
第三计算子单元,用于基于所述语义关联度与所述语义相似度,计算所述目标分词与所述候选匹配内容的语义匹配度。
在一实施例中,所述第一计算子单元,用于:
确定所述关联分词的候选匹配内容集,其中,所述关联分词的候选匹配内容集包括至少一个所述关联分词的候选匹配内容;基于所述目标分词与所述关联分词之间的关联关系,计算所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间的语义相关度,其中,所述语义相关度表征所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间在语义层面上的相关程度;基于所述语义相关度,确定所述目标分词与所述目标分词的候选匹配内容之间的语义关联度。
在一实施例中,所述第一计算子单元,具体用于:
确定每个所述候选匹配内容的内容引用集合,其中,所述内容引用集合包括所述候选匹配内容的至少一个引用内容,所述引用内容与所述候选匹配内容具有内容引用关系;基于所述目标分词的候选匹配内容对应的内容引用集合、以及所述关联分词的候选匹配内容对应的内容引用集合,计算所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间的语义相关度。
在一实施例中,所述第一计算子单元,具体用于:
针对所述目标分词的候选匹配内容对应的内容引用集合、以及所述关联分词的候选匹配内容对应的内容引用集合进行集合运算,得到运算后的目标引用集合,其中,所述目标引用集合包括至少一个目标引用内容,所述目标引用内容与所述目标分词的候选匹配内容具有内容引用关系,所述目标引用内容与所述关联分词的候选匹配内容具有内容引用关系;根据所述目标引用集合,计算所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间的语义相关度。
在一实施例中,所述内容描述信息包括所述候选匹配内容的内容简介信息和内容属性信息;所述第二计算子单元,用于:
获取所述目标分词在所述待处理文本中的上下文文本信息;对所述内容简介信息与所述内容属性信息进行组合,得到组合后的内容描述信息;基于所述上下文文本信息和所述组合后的内容描述信息,计算所述目标分词与所述候选匹配内容的语义相似度。
在一实施例中,所述第二计算子单元,具体用于:
计算所述内容属性信息与所述上下文文本信息之间的语义相关度,其中,所述语义相关度表征所述内容属性信息与所述上下文文本信息在语义层面上的相关程度;基于计算结果,从所述至少一项内容属性信息中选择目标内容属性信息;对所述内容简介信息与所述目标内容属性信息进行组合,得到组合后的内容描述信息。
在一实施例中,所述第二计算子单元,具体用于:
获取训练后的语义特征提取模型;通过所述语义特征提取模型,分别对所述上下文文本信息和所述组合后的内容描述信息进行特征提取,得到所述上下文文本信息对应的上下文语义特征、以及所述组合后的内容描述信息对应的内容语义特征;基于所述上下文语义特征、以及所述内容语义特征,计算所述目标分词与所述候选匹配内容的语义相似度。
在一实施例中,所述第二计算子单元,具体用于:
对所述上下文文本信息进行信息划分,得到划分后的上下文文本信息;对所述划分后的上下文文本信息进行特征转换,得到所述划分后的上下文文本信息对应的上下文文本特征;通过所述语义特征提取模型,基于注意力机制对所述上下文文本特征进行特征提取,得到所述上下文文本特征对应的上下文语义特征。
在一实施例中,所述第二计算子单元,具体用于:
确定待训练的语义特征提取模型、以及进行模型训练所需的样本数据集,其中,所述样本数据集包括样本文本,所述样本文本包括待匹配的样本分词、以及与所述样本分词在语义层面上具有关联关系的样本关联分词;确定所述样本分词的候选匹配内容集,其中,所述样本分词的候选匹配内容集包括所述样本分词的至少一个样本候选匹配内容;计算所述样本分词与所述样本候选匹配内容的语义匹配度;基于所述语义匹配度,对所述待训练的语义特征提取模型进行模型训练,得到训练后的语义特征提取模型。
在一实施例中,所述第三计算子单元,用于:
基于所述候选匹配内容之间的内容引用关系,确定所述候选匹配内容的先验重要度;对所述语义关联度、所述语义相似度、以及所述先验重要度进行融合处理,得到融合结果;基于所述融合结果,确定所述目标分词与所述候选匹配内容的语义匹配度。
在一实施例中,所述输出单元,包括:
排序子单元,用于基于所述语义匹配度,对所述候选匹配内容集中的候选匹配内容进行排序;
输出子单元,用于基于排序结果,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
相应的,本申请实施例还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如本申请实施例所示的基于文本处理的匹配方法的步骤。
相应的,本申请实施例还提供一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如本申请实施例所示的基于文本处理的匹配方法的步骤。
本申请实施例可以获取待处理文本,其中,所述待处理文本包括待匹配的目标分词、以及与所述目标分词在语义层面上具有关联关系的关联分词;确定所述目标分词的候选匹配内容集,其中,所述候选匹配内容集包括所述目标分词的至少一个候选匹配内容,每个所述候选匹配内容具有对应的内容描述信息;基于所述目标分词与所述关联分词之间的关联关系、以及所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义匹配度;基于所述语义匹配度,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
该方案可以基于目标分词与其关联分词之间的关联关系,来计算目标分词与候选匹配内容的语义匹配度,这样的话,该方案在对目标分词进行内容匹配时,不单是仅焦距于该目标分词而已,而是考虑到在待处理文本中,目标分词与其关联分词之间具有很强的语义相关度,且该方案是基于该语义相关度来对目标分词进行内容匹配的,因此,这有助于提高匹配效率与匹配准确度。此外,当目标分词的关联分词也为待处理文本中的待匹配分词时,也即,当待处理文本中具有多个待匹配分词时,该方案是通过结合多个待匹配分词之间的语义相关度来进行内容匹配的,这样的话,相比于独立地依次对待处理文本中的每个待匹配分词进行内容匹配,该方案能够同时计算待处理文本中的多个待匹配分词之间的语义相关度,使得针对待处理文本中的多个待匹配分词的内容匹配效率得到了进一步的提升。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的基于文本处理的匹配方法的场景示意图;
图2是本申请实施例提供的基于文本处理的匹配方法的流程图;
图3是本申请实施例提供的基于文本处理的匹配方法的候选匹配内容集示意图;
图4是本申请实施例提供的基于文本处理的匹配方法的语义相关度示意图;
图5是本申请实施例提供的基于文本处理的匹配方法的内容引用示意图;
图6是本申请实施例提供的基于文本处理的匹配方法的相关度网络示意图;
图7是本申请实施例提供的基于文本处理的匹配方法的语义特征提取示意图;
图8是本申请实施例提供的基于文本处理的匹配方法的另一流程示意图;
图9是本申请实施例提供的基于文本处理的匹配装置的结构示意图;
图10是本申请实施例提供的基于文本处理的匹配装置的另一结构示意图;
图11是本申请实施例提供的基于文本处理的匹配装置的另一结构示意图;
图12是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种基于文本处理的匹配方法、装置、计算机设备和存储介质。具体地,本申请实施例提供适用于计算机设备的基于文本处理的匹配装置。其中,该计算机设备可以为终端或服务器等设备,该终端可以为手机、平板电脑、笔记本电脑等设备。该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群。
本申请实施例将以计算机设备为服务器为例,来介绍基于文本处理的匹配方法。
参考图1,终端20上可以运行有搜索客户端,终端20可以通过搜索客户端获取用户发送的待搜索文本,并将该待搜索文本作为待处理文本,其中,该待处理文本包括待匹配的目标分词、以及与该目标分词在语义层面上具有关联关系的关联分词。
终端20可以将待处理文本发送给服务器10,以使得服务器10可以相应地获取该待处理文本。进一步地,服务器10可以确定目标分词的候选匹配内容集,其中,候选匹配内容集包括该目标分词的至少一个候选匹配内容,每个候选匹配内容具有对应的内容描述信息。服务器10可以基于目标分词与关联分词之间的关联关系、以及候选匹配内容的内容描述信息,计算目标分词与候选匹配内容的语义匹配度。进而,服务器10可以基于计算出的语义匹配度,从候选匹配内容集中确定并输出目标分词的目标匹配内容。
终端20可以对应地获取该目标匹配内容,并基于该目标匹配内容生成搜索结果页面后,向用户展示该搜索结果页面。
类似地,终端20上还可以运行有基于人工智能的问答客户端,推荐客户端等,终端20可以通过客户端获取待处理文本,并发送给服务器10,服务器10则可以通过本申请所述的基于文本处理的匹配方法,确定并输出目标匹配内容,以使得终端20可以在获取该目标匹配内容后,进一步与用户进行交互或者进行数据处理。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的一种基于文本处理的匹配方法,该方法涉及人工智能的自然语言处理(Natural Language Processing,NLP)等技术,并且,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以基于文本处理的匹配方法由服务器执行为例来进行说明,具体的,由集成在服务器中的基于文本处理的匹配装置来执行,如图2所述,该基于文本处理的匹配方法的具体流程可以如下:
101、获取待处理文本,其中,待处理文本包括待匹配的目标分词、以及与目标分词在语义层面上具有关联关系的关联分词。
其中,文本,是指书面语言的表现形式,通常是具有完整、系统含义的一个句子或多个句子的组合。而句子是语言运用的基本单位,句子可以由词、词组构成。
其中,待处理文本的所属的语言种类可以有多种,例如,待处理文本可以为中文文本,英文文本,法语文本等;又如,待处理文本可以为由编程语言编写的文本;等等。
例如,待处理文本可以为中文文本,例如,待处理文本可以为“李X从小就受父亲影响,1988年开始练习羽毛球,1989年的时候,被著名网球教练夏X相中开始练网球”,值得注意的是,该例子中的“李X”与“夏X”均为示例词汇。
又如,待处理文本可以为英文文本,例如,待处理文本可以为“Influenced by hisfather since childhood,Zhang San began to practice badminton in 1988.In 1989,he was selected by Li Si,a famous tennis coach,to practice tennis.”。
其中,待处理文本中的分词为待处理文本中的词或词组,而待匹配的目标分词,是指待进行内容匹配的分词。具体地,对分词进行内容匹配用于将该分词匹配到对应的内容。
其中,内容是信息的载体,内容可以由多项信息构成。例如,内容可以包括文本信息,图片信息,音频信息,视频信息等等,例如,内容可以以知识库中的知识记录,该知识记录在数据库中的表现形式可以为数据库中相关的数据记录,该知识记录在应用中的表现形式可以为网页内容等。
譬如,参考图3,其中每个义项对应一个知识库中名字为“李X”的实体,其中,每个知识库中的实体都具有相关的内容信息,因此,值得注意的是,在本申请中,对待处理文本中待匹配的目标分词进行内容匹配的过程,也可以称为对待处理文本中该目标分词对应的命名实体进行匹配,以将该命名实体匹配到正确实体的过程,例如,将该命名实体匹配到知识库中的正确实体的过程。
在实际应用中,用户可以通过点击图3中的义项,以跳转到对应的实体的内容展示页面。其中,一个多义词由词条名及若干义项组成。相同词条名下每一个不同概念意义事物的描述内容称为义项。义项描述是对义项的明确叙述,应为最能代表义项事物属性和特质的内容。如词条“苹果”下有多个义项,包括果树、水果、公司和电影等。
在实际应用中,针对目标分词进行内容匹配可以具有多个不同的应用场景,例如,可以应用于搜索中,作为示例,针对“X德华X间道”这个待处理文本,如果不仅仅识别出“X德华”是一个影视明星,“X间道”是一个电影,还将这两个实体链接上到了知识库对应的实体上,那么,就可以通过知识库获取这两个实体更详细的信息,例如“X德华”的年龄、星座、代表作品等,“X间道”的导演、演员、上映日期等,这些信息不仅可以提供给用户丰富展示信息,而且,对待处理文本的深层理解也是很有帮助,同时,也能更好的检索出更相关的内容信息。
又如,在问答系统中,需要对用户问题进行精准的分析,这也是内容匹配的应用场景。例如,待处理文本可以为用户问题“钱XX和清华大学的关系”,并且,可以将“钱XX”以及“清华大学”与知识库中的知识记录作匹配,以通过知识库获悉该问题的正确答案。
又如,在推荐系统中也可以应用内容匹配。例如,例如用户点击了“X马逊宣布与X讯视频建立合作”这篇文章,可以确定用户时可能对“X马逊”这个公司实体感兴趣,而不是对“X马逊河流”这个实体感兴趣,进而可以向用户推荐“X马逊”公司实体的相关信息。
作为示例,内容匹配可以应用于NLP的实体消歧中,具体地,实体消歧是NLP里一项基础技术,目的是将文本里识别出的命名实体链接到知识库里的正确实体上,有时也叫实体链接。例如,待处理文本中识别出了“李X”是一个人名,在一实施例中,参考图3可知,知识库中有很多个名字为“李X”的人物。需要将待处理文本中的“李X”链接到正确的实体,也就是“中国女子网球名将”这个实体。而该过程即为对目标分词“李X”进行内容匹配的过程,即将目标分词匹配到该目标分词所应该对应的内容,或者可以称,将目标分词匹配到该目标分词所对应的正确内容的过程。
其中,目标分词的关联分词为待处理文本中与目标分词在语义层面上具有关联关系的分词。而语义层面上的关联关系,表征的是分词之间是如何关联起来组成句子的含义的。
作为示例,若待处理文本为“李X从小就受父亲影响,1988年开始练习羽毛球,1989年的时候,被著名网球教练夏X相中开始练网球”,且目标分词为“李X”时,目标分词的关联分词可以为“夏X”,因为关联“李X”与“夏X”后,有利于理解该待处理文本的正确含义。
值得注意的是,关联分词的数量可以为多个,例如,另一示例中,若待处理文本为“X兰特在接受记者采访时,被问及X姆斯回归X士的决定,他说道‘我认为X姆斯考虑的很周详,处理得很漂亮’”,且目标分词为“X兰特”时,目标分词的关联分词可以包括“X姆斯”与“X士”,因为关联“X兰特”,“X姆斯”与“X士”后,有利于理解该待处理文本的正确含义。
值得注意的是,关联分词也可以为待处理文本中待匹配的分词,也就是说,待处理文本中可以包括至少一个待匹配的目标分词,这些目标分词在语义层面上具有关联关系。例如,若待处理文本为“X兰特在接受记者采访时,被问及X姆斯回归X士的决定,他说道‘我认为X姆斯考虑的很周详,处理得很漂亮’”,则目标分词可以包括“X兰特”,“X姆斯”以及“X士”,并且,这些目标分词在语义层面上具有关联关系,也就是说,关联这些目标分词后,有利于理解待处理文本的正确含义。
在本申请中,获取待处理文本的方式可以有多种,例如,终端可以向服务器发送待处理文本,以使得服务器获取待处理文本。具体地,终端上可以运行有客户端,并且,终端可以通过该客户端获取待处理文本,例如,终端上可以运行有搜索客户端,问答系统客户端,推荐系统客户端,等等。
102、确定目标分词的候选匹配内容集,其中,候选匹配内容集包括目标分词的至少一个候选匹配内容,每个候选匹配内容具有对应的内容描述信息。
其中,目标分词的候选匹配内容指的是可能与目标分词匹配上的匹配内容,例如,以待处理文本为“李X从小就受父亲影响,1988年开始练习羽毛球,1989年的时候,被著名网球教练夏X相中开始练网球”为例,目标分词可以为“李X”,则目标分词的候选匹配内容可以为图3中所示的“李X”的115个义项,其中,每个义项在知识库中具有对应的内容信息。
其中,目标分词的候选匹配内容集为由目标分词的候选匹配内容构成的集合,其中可以包括目标分词的至少一个候选匹配内容,例如,目标分词“李X”的候选匹配内容集可以为由图3中所示的115个义项构成的集合。
其中,内容描述信息为描述候选匹配内容的信息,例如,内容描述信息可以包括候选匹配内容的内容简介信息与内容属性信息,其中,内容简介信息为对候选匹配内容对应的实体的进行简要介绍的相关信息,内容属性信息为描述候选匹配内容对应的实体的属性的相关信息。
作为示例,参考图3,对于“中国女子网球名将”对应的候选匹配内容,其内容描述信息可以包括内容简介信息与内容属性信息,譬如,内容简介信息可以为“李X是中国女子网球名将,曾多次参加国际比赛并获得多项殊荣……”;内容属性信息可以包括“中国女子网球名将”对应的实体的属性的相关信息,例如,内容属性信息可以包括以下属性的相关信息:中文名,外文名,别名,国籍,名族,出生地,出生日期,身高,体重,毕业院校等。
确定目标分词的候选匹配内容集的方式可以有多种,例如,服务器可以通过向终端或者其他服务器请求相关数据来获得目标分词的候选匹配内容集。
作为示例,数据库中可以存储有该目标分词的候选匹配内容集,譬如,知识库中可以包括该目标分词的候选匹配内容集,则可以基于目标分词,生成数据查询请求,该数据查询请求用于请求获取目标分词的候选匹配内容。进一步地,可以获取响应于该数据查询请求的响应数据,该响应数据中可以包括该目标分词的至少一项候选匹配内容。从而,可以基于获取的候选匹配内容,确定目标分词的候选匹配内容集。
103、基于目标分词与关联分词之间的关联关系、以及候选匹配内容的内容描述信息,计算目标分词与候选匹配内容的语义匹配度。
其中,语义匹配度描述的是目标分词与候选匹配内容在语义层面上的匹配程度。语义匹配度的表现形式可以有多种,例如,可以计算目标分词与候选匹配内容的语义匹配分数,并以该语义匹配分数来表征语义匹配度。
基于目标分词与关联分词之间的关联关系、以及候选匹配内容的内容描述信息,计算目标分词与候选匹配内容的语义匹配度的方式可以有多种,例如,可以分别基于目标分词与关联分词之间的关联关系、以及基于候选匹配内容的内容描述信息进行计算,进一步地,再基于计算结果来确定目标分词与候选匹配内容的语义匹配度。具体地,步骤“基于目标分词与关联分词之间的关联关系、以及候选匹配内容的内容描述信息,计算目标分词与候选匹配内容的语义匹配度”,可以包括:
基于目标分词与关联分词之间的关联关系,计算目标分词与候选匹配内容的语义关联度,其中,语义关联度表征目标分词与候选匹配内容在语义层面上的关联程度;
基于候选匹配内容的内容描述信息,计算目标分词与候选匹配内容的语义相似度,其中,语义相似度表征目标分词与候选匹配内容在语义层面上的相似层度;
基于语义关联度与语义相似度,计算目标分词与候选匹配内容的语义匹配度。
以下可以先对步骤“基于目标分词与关联分词之间的关联关系,计算目标分词与候选匹配内容的语义关联度”进行描述。
其中,语义关联度表征目标分词与候选匹配内容在语义层面上的关联程度。具体地,在待处理文本中,目标分词与其关联分词在语义层面上具有关联关系,且该关联关系描述的是如何通过关联目标分词与其关联分词,来理解待处理文本的正确含义,因此,可知关联分词是有助于从目标分词的候选匹配内容集中,确定目标分词的目标匹配内容的。
例如,对于待处理文本“2004年,李X在丈夫姜X的鼓励和支持下选择了复出。”,目标分词可以为“李X”,且目标分词的关联分词可以为“姜X”。“李X”和“姜X”可以分别对应了多个知识库里的实体。但是“李X(中国女子网球名将)”和“姜X(著名网球教练员)”这一对实体的语义关联度,相较于其他实体之间的语义关联度更高。所以,计算目标分词与其关联分词之间的语义关联度,有助于从目标分词的候选匹配内容集中,确定目标分词的目标匹配内容。
值得注意的是,计算出目标分词与关联分词之间的语义关联度后,该语义关联度不仅有助于对目标分词进行内容匹配,类似地,也有助于对该关联分词进行内容匹配,这样的话,若目标分词的关联分词也为待处理文本中的待匹配分词时,该计算过程有助于高效地对待处理文本中的多个待匹配分词进行内容匹配。
例如,对于待处理文本“2004年,李X在丈夫姜X的鼓励和支持下选择了复出。”,目标分词“李X”具有关联分词“姜X”,由于在对“李X”进行内容匹配的过程中,计算了“李X”与“姜X”之间的语义关联度,该语义关联度不仅有助于对“李X”进行内容匹配,类似地,也有助于对“姜X”进行内容匹配。
基于目标分词与关联分词之间的关联关系,计算目标分词与目标分词的候选匹配内容之间的语义关联度的方式可以有多种,例如,可以通过计算目标分词的候选匹配内容与关联分词的候选匹配内容之间在语义层面上的相关程度,来确定目标分词与目标分词的候选匹配内容之间的语义关联度,具体地,步骤“基于目标分词与关联分词之间的关联关系,计算目标分词与候选匹配内容的语义关联度”,可以包括:
确定关联分词的候选匹配内容集,其中,关联分词的候选匹配内容集包括至少一个关联分词的候选匹配内容;
基于目标分词与关联分词之间的关联关系,计算目标分词的候选匹配内容与关联分词的候选匹配内容之间的语义相关度,其中,该语义相关度表征目标分词的候选匹配内容与关联分词的候选匹配内容之间在语义层面上的相关程度;
基于该语义相关度,确定目标分词与目标分词的候选匹配内容之间的语义关联度。
其中,关联分词的候选匹配内容指的是可能与该关联分词匹配上的匹配内容,例如,以待处理文本为“李X从小就受父亲影响,1988年开始练习羽毛球,1989年的时候,被著名网球教练夏X相中开始练网球”为例,目标分词可以为“李X”,关联分词可以为“夏X”,则该关联分词的候选匹配内容可以为知识库中“夏X”的义项。
其中,关联分词的候选匹配内容集为由关联分词的候选匹配内容构成的集合,其中可以包括该关联分词的至少一个候选匹配内容,例如,关联分词“夏X”的候选匹配内容集可以为知识库中“夏X”的义项构成的集合。
类似地,确定关联分词的候选匹配内容集的方式可以参考确定目标分词的候选匹配内容集的方式,在此不做赘述。
进一步地,可以计算目标分词的候选匹配内容(后面简称第一候选内容)与关联分词的候选匹配内容(后面简称第二候选内容)之间的语义相关度。
作为示例,参考图4,待处理文本可以为“X兰特在接受记者采访时,被问及X姆斯回归X士的决定,他说道‘我认为X姆斯考虑的很周详,处理得很漂亮’”,其中目标分词为“X兰特”,关联分词可以为“X姆斯”与“X士”。可以以计算目标分词“X兰特”的候选匹配内容与关联分词“X姆斯”的候选匹配内容之间的语义相关度为例进行介绍。
参考图4,可以将候选匹配内容之间的语义相关度用连线的方式表示。具体地,在该示例中,目标分词“X兰特”的候选匹配内容为以下两个:“A1·X兰特(历史学家)”与“A2·X兰特(篮球运动员)”。关联分词“X姆斯”的候选匹配内容为以下两个:“B1·X姆斯(篮球运动员)”与“B2·X姆斯(演员、歌手)”,因此,参见图4,目标分词“X兰特”的候选匹配内容与关联分词“X姆斯”的候选匹配内容之间的语义相关度,可以用连线的方式进行图示。
类似地,“X兰特”的候选匹配内容与“X士”的候选匹配内容之间的语义相关度,亦可以如图4所示进行图示。
计算第一候选内容与第二候选内容之间的语义相关度的方式可以有多种,例如,考虑到在实际应用中,内容之间存在内容引用的情况,例如,若内容是以页面的形式存在,则内容引用可以为页面之间的链接;又如,若内容是以文章的形式存在,则内容引用可以为文章之间的引用;又如,若内容是以程序文件的形式存在,则内容引用可以为程序之间的引用;等等。由于两个分词之间内容引用的交集越多,这两个分词的语义相关度就越高,例如,链接到两个实体的共同页面越多,这两个实体的语义相关度就越高,因此,在计算第一候选内容与第二候选内容之间的语义相关度时,可以基于每个候选内容的内容引用情况来计算,具体地,步骤“基于目标分词与关联分词之间的关联关系,计算目标分词的候选匹配内容与关联分词的候选匹配内容之间的语义相关度”,可以包括:
确定每个候选匹配内容的内容引用集合,其中,内容引用集合包括候选匹配内容的至少一个引用内容,引用内容与候选匹配内容具有内容引用关系;
基于目标分词的候选匹配内容对应的内容引用集合、以及关联分词的候选匹配内容对应的内容引用集合,计算目标分词的候选匹配内容与关联分词的候选匹配内容之间的语义相关度。
其中,内容引用关系是指内容之间相互引用,或者单向引用的关系。引用的情况可以有多种,例如,若内容是以页面的形式存在,则内容引用可以为页面之间的链接;又如,若内容是以文章的形式存在,则内容引用可以为文章之间的引用;又如,若内容是以程序文件的形式存在,则内容引用可以为程序之间的引用;等等。
其中,候选匹配内容的引用内容,是指与该候选匹配内容具有内容引用关系的内容。例如,若内容是以页面的形式存在,则页面A的引用内容,可以包括页面A的入链页面与出链页面。
其中,候选匹配内容的内容引用集合为由候选匹配内容的引用内容构成的集合。例如,第一候选内容的内容引用集合为由第一候选内容的引用内容构成的集合,第二候选内容的内容引用集合为由第二候选内容的引用内容构成的集合。
作为示例,内容可以以页面的形式存在,并且,内容引用可以为页面之间的链接。参见图5,以目标分词“X兰特”的候选匹配内容“A2·X兰特(篮球运动员)”、以及关联分词“X姆斯”的候选匹配内容“B1·X姆斯(篮球运动员)”为例,候选匹配内容“A2·X兰特(篮球运动员)”的内容引用集合中包括5个引用内容,即5个入链页面:“D篮球队”、“XX大学”、“XX联盟最具价值球员”、“XX运动品牌”以及“XX总决赛最具价值球员”。类似地,可以确定候选匹配内容“B1·X姆斯(篮球运动员)”的内容引用集合。
参见图4,目标分词“X兰特”与关联分词“X姆斯”均具有多个候选匹配内容,但是,他们对应的目标匹配内容之间是具有强语义相关度的,也即,“A2·X兰特(篮球运动员)”与“B1·X姆斯(篮球运动员)”之间是具有强语义相关度的。并且,结合图5可知,两个候选匹配内容的共同引用内容越多,两个候选匹配内容之间的语义相关度越高,具体地,即链接到两个候选匹配内容的共同页面越多,两个候选匹配内容之间的语义相关度越高。因此,可以基于候选匹配内容的内容引用集合,来计算候选匹配内容之间的语义相关度。具体地,步骤“基于目标分词的候选匹配内容对应的内容引用集合、以及关联分词的候选匹配内容对应的内容引用集合,计算目标分词的候选匹配内容与关联分词的候选匹配内容之间的语义相关度”,可以包括:
针对目标分词的候选匹配内容对应的内容引用集合、以及关联分词的候选匹配内容对应的内容引用集合进行集合运算,得到运算后的目标引用集合,其中,目标引用集合包括至少一个目标引用内容,目标引用内容与目标分词的候选匹配内容具有内容引用关系,目标引用内容与关联分词的候选匹配内容具有内容引用关系;
根据目标引用集合,计算目标分词的候选匹配内容与关联分词的候选匹配内容之间的语义相关度。
其中,集合运算为针对集合进行的运算,例如,集合运算可以包括集合的基本运算,譬如,交集、并集、相对补集、绝对补集、子集等。
作为示例,参考图5可知,与目标分词“X兰特”的候选匹配内容“A2·X兰特(篮球运动员)”具有内容引用关系,并且,与关联分词“X姆斯”的候选匹配内容“B1·X姆斯(篮球运动员)”具有内容引用关系的目标引用内容为以下三项内容:“XX联盟最具价值球员”、“XX运动品牌”、以及“XX综掘岁最具价值球员”。在确定目标引用内容后,即可确定由目标引用内容组成的目标引用集合。
进一步地,可以根据目标引用集合,计算候选匹配内容之间的语义相关度。在一实施例中,内容可以以页面的形式存在,并且,内容引用可以为页面之间的链接,可以参照下式,采用基于维基百科链接的度量方法(Wikipedia link-based Measure,WLM),来计算候选匹配内容e1与候选匹配内容e2之间的语义相关度WLM(e1,e2):
Figure BDA0003037916770000171
其中,Se1表示页面e1的入链集合,即链接到候选匹配内容e1的页面集合;Se2表示页面e2的入链集合,即链接到候选匹配内容e2的页面集合;D表示所有文档,例如,D可以表示为维基百科的所有文档。
类似地,对于待处理文本中各待匹配分词的候选匹配内容,可以计算任意一对候选匹配内容之间的语义相关度,并基于计算结果构建相关度网络。例如,作为图示,可以用连线表示每个候选匹配内容之间的语义相关度,并且,可以基于语义相关度的计算结果,对应地调整连线的粗细,例如,可以设置语义相关度较大时连线较粗,这样的话,可以更好地通过相关度网络来展示候选匹配内容之间的语义相关度。作为示例,可以构建图6所示的相关度网络,其中,通过两两计算候选实体之间的语义相关度,可以确定“A2·X兰特(篮球运动员)”、“C2·X士”、以及“B1·X姆斯”之间的语义相关度最大。
在计算得到目标分词的候选匹配内容与关联分词的候选匹配内容之间的语义相关度后,即可基于该语义相关度,确定目标分词与目标分词的候选匹配内容之间的语义关联度。
例如,在一实施例中,对于目标分词的多个候选匹配内容,可以基于构建的相关度网络来计算目标分词与目标分词的每个候选匹配内容之间语义关联度,例如,可以以语义关联度分数来表征语义关联度,具体地,可以通过pagerank算法来计算目标分词与目标分词的每个候选匹配内容之间的语义关联度分数,以确定目标分词与目标分词的每个候选匹配内容之间的语义关联度。
又如,在一实施例中,可以基于生成的相关度网络来计算目标分词与目标分词的每个候选匹配内容之间的语义关联度。作为示例,参考图6,目标分词“X兰特”具有两个候选匹配内容:“A1·X兰特(历史学家)”与“A2·X兰特(篮球运动员)”,并且,图6中展示目标分词的每个候选匹配内容与关联分词的每个候选匹配内容之间语义相关度,在实际应用中,可以以数字具体化语义相关度,例如,可以将语义相关度分数作为图6中每条连线对应的权重,来对每条连线做标注。
进一步地,对于目标分词的每个候选匹配内容,即可通过这些权重值,来确定目标分词的每个候选匹配内容的得分,并将该得分确定为该候选匹配内容与目标分词之间的语义关联度分数。例如,可以通过对目标分词的每个候选匹配内容在相关度网络中所对应具有的权重进行加和处理,并将加和结果作为该候选匹配内容与目标分词的语义关联度分数。
以下可以对步骤“基于候选匹配内容的内容描述信息,计算目标分词与候选匹配内容的语义相似度”进行描述。
值得注意的是,在本申请中,不对步骤“基于目标分词与关联分词之间的关联关系,计算目标分词与候选匹配内容的语义关联度”与步骤“基于候选匹配内容的内容描述信息,计算目标分词与候选匹配内容的语义相似度”之间的执行顺序作限制,例如,可以为同时执行,也可以为不同时执行;并且,对不同时执行时候的先后顺序也不作限制。
其中,目标分词与候选匹配内容的语义相似度描述的是,目标分词与候选匹配内容在语义层面上的相似程度。具体地,在待处理文本中,可以用候选匹配内容替换掉目标分词,若该候选匹配内容与目标分词具有较高的语义相似度,则替换后的待处理文本与原始的待处理文本在语义层面上亦具有较高的相似程度。
基于候选匹配内容的内容描述信息,计算目标分词与该候选匹配内容之间的语义相似度的方式可以有多种,例如,考虑到候选匹配内容的内容描述信息可以包括候选匹配内容的内容简介信息与内容属性信息,并且,内容简介信息与内容属性信息为从不同的粒度对候选匹配内容进行描述的信息,因此,可以对内容简介信息与内容属性信息进行组合,并通过组合结果来计算目标分词与候选匹配内容之间的语义相似度,具体地,步骤“基于候选匹配内容的所述内容描述信息,计算目标分词与候选匹配内容的语义相似度”,可以包括:
获取目标分词在待处理文本中的上下文文本信息;
对内容简介信息与内容属性信息进行组合,得到组合后的内容描述信息;
基于上下文文本信息和组合后的内容描述信息,计算目标分词与候选匹配内容的语义相似度。
其中,目标分词在待处理文本中的上下文,即为目标分词在待处理文本中的语境。例如,可以将待处理文本中除目标分词以外的文本,作为目标分词在待处理文本中的上下文文本。对应地,上下文文本信息即为上下文文本的相关信息。
作为示例,待处理文本可以为“李X1989年开始练习网球”,其中,目标分词可以为“李X”,则“李X”的上下文文本信息可以为“1989年开始练习网球”。
获取目标分词在待处理文本中的上下文文本信息的方式可以有多种,例如,可以对待处理文本进行遮掩处理,具体地,可以遮掩待处理文本中的目标分词,这样的话,即可得到该目标分词的上下文文本信息。例如,对于待处理文本“李X1989年开始练习网球”,可以使用[MASK]字符串来遮掩目标分词“李X”,得到遮掩后的上下文文本信息:“[MASK]1989年开始练习网球”。
进一步地,对候选匹配内容的内容简介信息与内容属性信息进行组合的方式可以有多种,例如,考虑到候选匹配内容可以包括多项内容属性,对应地,内容描述信息可以包括多项内容属性信息,但是,并不是每一项内容属性信息都对计算目标分词与候选匹配内容之间的语义相似度有助或有关,因此,可以对候选匹配内容的内容属性信息进行过滤,得到过滤后的内容属性信息后,再进一步地进行信息组合。具体地,步骤“对内容简介信息与内容属性信息进行组合,得到组合后的内容描述信息”,可以包括:
计算内容属性信息与上下文文本信息之间的语义相关度,其中,语义相关度表征该内容属性信息与该上下文文本信息在语义层面上的相关程度;
基于计算结果,从至少一项内容属性信息中选择目标内容属性信息;
对内容简介信息与目标内容属性信息进行组合,得到组合后的内容描述信息。
其中,内容属性信息与上下文文本信息之间的语义相关度,表征内容属性信息与上下文文本信息在语义层面上的相关程度。
语义相关度的计算方式可以有多种,例如,可以通过计算内容属性信息与上下文文本信息之间的距离来确定两者的语义相关度。具体地,可以分别对上下文文本信息与内容属性信息进行分词处理,得到分词后的上下文文本信息、以及分词后的内容属性信息,其中,分词后的上下文文本信息可以包括至少一个上下文分词;分词后的内容属性信息可以包括至少一个内容属性分词。
并且,可以使用预训练的词向量分别对上下文分词与内容属性分词进行向量化处理,得到上下文分词对应的上下文分词向量、以及内容属性分词对应的内容属性分词向量,进一步地,可以对各个上下文分词向量进行加和平均处理,并将处理后得到的向量作为上下文文本信息对应的上下文文本向量;对各个内容属性分词向量进行加和平均处理,并将处理后得到的向量作为内容属性信息对应的内容属性向量。
这样的话,即可通过计算上下文文本向量与内容属性向量之间的向量相似度,来计算内容属性信息与上下文文本信息之间的语义相关度。其中,向量相似度的计算方法可以有多种,例如,可以通过计算余弦相似度,欧式距离,曼哈顿距离,皮尔逊相关系数等来计算向量相似度,进一步地,可以基于向量相似度的计算结果,来确定内容属性信息与上下文文本信息之间的语义相关度,例如,可以将向量相似度的计算结果作为语义相关度;又如,可以基于业务需求,对向量相似度的计算结果进行数据处理后,将处理结果作为语义相关度;等等。
在确定内容属性信息与上下文文本信息之间的语义相关度后,即可基于计算结果,从至少一项内容属性信息中选择目标内容属性信息。例如,可以基于计算结果,对内容属性信息进行排序,并基于排序结果,从多项内容属性信息中选择目标内容属性信息。例如,可以选取语义相关度满足预设阈值条件的内容属性信息作为目标内容属性信息;又如,可以基于排序结果,选择预设比例的内容属性信息作为目标内容属性信息;等等。
对候选匹配内容的内容属性信息进行筛选,得到目标内容属性信息后,即可对内容简介信息与目标内容属性信息进行组合,得到组合后的内容描述信息。进行信息组合的方式可以有多种,例如,可以通过连接内容简介信息与目标内容属性信息,来实现信息组合,得到组合后的内容描述信息。
可选的,为了更好地表征候选匹配内容的目标内容属性信息,可以针对目标内容属性信息设置属性描述符。具体地,可以为每个目标内容属性信息分配一个标识编码(Identity Document,ID),当前文本段来自于哪个目标内容属性信息就为该文本段增加一个属性ID序列。例如,参考图7,待处理文本可以为“李X1989年开始练习网球”,其中目标分词“李X”的候选匹配内容具有内容简介信息“李X的简介…”、以及包括生日属性信息的目标内容属性信息“1982年2月2日”,可以设置1为内容简介信息的属性ID,设置3为生日属性信息的属性ID,则可以如图7所述,为该候选匹配内容的内容简介信息与生日属性信息分别添加对应的属性描述符。值得注意的是,每个属性ID会对应一个向量,该向量可以跟着模型一起学习。
在得到上下文文本信息、以及组合后的内容描述信息后,即可基于上下文文本信息和组合后的内容描述信息,计算目标分词与候选匹配内容的语义相似度。计算的方式可以有多种,例如,可以通过训练后模型来计算,具体地,步骤“基于上下文文本信息和组合后的内容描述信息,计算目标分词与候选匹配内容的语义相似度”,可以包括:
获取训练后的语义特征提取模型;
通过语义特征提取模型,分别对上下文文本信息和组合后的内容描述信息进行特征提取,得到上下文文本信息对应的上下文语义特征、以及组合后的内容描述信息对应的内容语义特征;
基于上下文语义特征、以及内容语义特征,计算目标分词与候选匹配内容的语义相似度。
其中,语义特征提取模型为用于从文本信息中提取语义特征的模型,语义特征提取模型的类型可以有多种,例如,可以将用于语义理解的深度双向预训练转换器(Pre-training of Deep Bidirectional Transformers for Language Understanding,BERT)模型作为语义特征提取模型;又如,可以将长短期记忆人工神经网络(Long Short-TermMemory,LSTM);又如,可以将门控循环单元(Gate Recurrent Unit,GRU)作为语义特征提取模型;等等。
在一实施例中,参考图7,可以以BERT模型作为语义特征提取模型,并且,可以如图7所示采用双塔模型架构。具体地,在模型的左部分,可以通过BERT模型对上下文文本信息进行特征提取,以得到上下文文本特征对应的上下文语义特征。类似地,参见图7,在模型的右部分,可以通过BERT模型对组合后的内容描述信息进行特征提取,以得到组合后的内容描述信息对应的内容语义特征。
在本申请中,步骤“通过语义特征提取模型,分别对上下文文本信息和组合后的内容描述信息进行特征提取,得到上下文文本信息对应的上下文语义特征、以及组合后的内容描述信息对应的内容语义特征”可以包括:
通过语义特征提取模型对上下文文本信息进行特征提取,得到上下文文本信息对应的上下文语义特征;
通过语义特征提取模型对组合后的内容描述信息进行特征提取,得到组合后的内容描述信息对应的内容语义特征。
作为示例,可以以步骤“通过语义特征提取模型对上下文文本信息进行特征提取,得到上下文文本信息对应的上下文语义特征”为例,对特征提取的过程作进一步的解释,步骤“通过语义特征提取模型对组合后的内容描述信息进行特征提取,得到组合后的内容描述信息对应的内容语义特征”的执行方式则可以对应地参考,本申请不对此做赘述。
在一实施例中,语义特征提取模型可以为BERT模型,则具体地,步骤“通过语义特征提取模型,对上下文文本信息进行特征提取,得到上下文文本信息对应的上下文语义特征”,可以包括:
对上下文文本信息进行信息划分,得到划分后的上下文文本信息;
对划分后的上下文文本信息进行特征转换,得到划分后的上下文文本信息对应的上下文文本特征;
通过语义特征提取模型,基于注意力机制对上下文文本特征进行特征提取,得到上下文文本特征对应的上下文语义特征。
其中,信息划分为将信息划分成粒度更小的子信息的过程,信息划分的实现方式可以有多种,例如,可以通过分词处理来实现信息划分;又如,可以通过分字处理来实现信息划分;等等。
作为示例,在本实施例中,可以通过对上下文文本信息进行分字处理,以实现对上下文文本信息进行信息划分。具体地,参考图7,可以以待处理文本为“李X1989年开始练习网球”为例,其中目标分词可以为“李X”,可以通过[MASK]将目标分词遮掩掉,得到遮掩后的上下文文本信息。进一步地,可以对遮掩后的上下文文本信息进行分字处理,使得处理后的上下文文本信息会按照字粒度进行拆分,得到拆分后的上下文文本信息:“1989年开始练习网球”,从而得到划分后的上下文文本信息。
其中,特征转换为将信息转换为特征的过程,例如,特征的表现形式可以为向量,因此,特征转换可以为将上下文文本信息转换为对应的向量的过程。
在一实施例中,可以通过预训练的字向量,将分字处理后得到的上下文文本中的多个字,分别转换为对应的字向量,以实现对划分后的上下文文本信息进行特征转换,得到划分后的上下文文本信息对应的上下文文本特征。进一步地,即可通过BERT模型,基于注意力机制对上下文文本特征进行特征提取,得到BERT模型输出的上下文文本特征对应的上下文语义特征。
可选地,在将上下文文本信息输入到BERT模型之前,为了符合BERT模型的规范,可以在上下文文本信息在前面与后面分别添加特殊字符“[CLS]”和“[SEP]”,以使得能够将该上下文文本信息输入至BERT模型,并通过BERT模型对上下文文本信息进行特征提取。
在获取上下文语义特征与内容语义特征后,即可基于上下文语义特征、以及内容语义特征,计算目标分词与候选匹配内容的语义相似度。
在一实施例中,语义特征提取模型可以为BERT模型,对应地,得到的上下文语义特征与内容语义特征均为向量,因此,可以通过计算向量相似度来计算语义相似度。其中,向量相似度的计算方法可以有多种,例如,可以通过计算余弦相似度,欧式距离,曼哈顿距离,皮尔逊相关系数等来计算向量相似度。
作为示例,可以参照下式来计算语义相似度S:S=cos(V1,V2),其中,V1表示上下文语义特征,V2表示内容语义特征。
值得注意的是,前述对如何通过训练后的语义特征提取模型进行特征提取进行了介绍,在本申请中,还可以通过模型训练来获取训练后的语义特征提取模型,具体地,步骤“获取训练后的语义特征提取模型”,可以包括:
确定待训练的语义特征提取模型、以及进行模型训练所需的样本数据集,其中,样本数据集包括样本文本,样本文本包括待匹配的样本分词、以及与样本分词在语义层面上具有关联关系的样本关联分词;
确定样本分词的候选匹配内容集,其中,样本分词的候选匹配内容集包括该样本分词的至少一个样本候选匹配内容;
计算样本分词与样本候选匹配内容的语义匹配度;
基于语义匹配度,对待训练的语义特征提取模型进行模型训练,得到训练后的语义特征提取模型。
其中,样本数据集为样本数据的集合,在本申请中,样本数据即为样本文本,其中,样本文本可以包括待匹配的样本分词、以及与样本分词在语义层面上具有关联关系的样本关联分词。
类似地,确定样本分词的候选匹配内容集的方式,可以参考步骤“确定目标分词的候选匹配内容集”;计算样本分词与样本候选匹配内容的语义匹配度,则可以参考步骤“计算目标分词与候选匹配内容的语义匹配度”,在此不做赘述。
作为示例,可以参照下式来计算模型训练过程中的损失Loss:Loss=max(0,M-S-+S+),其中,M为超参数,S-表示负例,S+表示正例。
前述对步骤“基于目标分词与关联分词之间的关联关系,计算目标分词与候选匹配内容的语义关联度”与步骤“基于候选匹配内容的内容描述信息,计算目标分词与候选匹配内容的语义相似度”进行了解释,下面可以对步骤“基于语义关联度与语义相似度,计算目标分词与候选匹配内容的语义匹配度”作进一步解释。
具体地,步骤“基于语义关联度与语义相似度,计算目标分词与候选匹配内容的语义匹配度”,可以包括:
基于候选匹配内容之间的内容引用关系,确定候选匹配内容的先验重要度;
对语义关联度、语义相似度、以及先验重要度进行融合处理,得到融合结果;
基于融合结果,确定目标分词与候选匹配内容的语义匹配度。
其中,先验重要度为根据以往经验和分析得到的重要度。
在一实施例中,内容可以以页面的形式存在,且内容引用可以为页面之间的链接,则可以基于候选匹配内容在知识库中的链接关系,来计算候选匹配内容的先验重要度,例如,基于该链接关系,可以通过pagerank算法计算候选匹配内容的重要度,得到第一先验重要度。
又如,可以基于候选匹配内容在百科中的链接关系,计算该候选匹配内容的链接概率,并将该链接概率作为候选匹配内容的重要度,得到第二先验重要度。例如,候选匹配内容可以为百科中的锚文本的形式,对于锚文本“X德华”,若其在百科里一共出现了100次,90次都链接的是“A德华(影视明星)”,那“A德华(影视明星)”的链接概率就是90/100=0.9。
融合处理的方式可以有多种,例如,可以通过线性模型对语义关联度、语义相似度、以及先验重要度进行融合;又如,可以通过非线性模型对语义关联度、语义相似度、以及先验重要度进行融合。
在一实施例中,可以选择线性模型作为融合所需的模型,并且,可以对该线性模型进行训练,并获取训练后模型,以使得可以通过训练后模型对语义关联度、语义相似度、以及先验重要度进行融合处理,得到融合结果。
作为示例,可以使用语义关联度、语义相似度、第一先验重要度、以及第二先验重要度,参照下式来训练线性模型S:S=a1×x+a2×y+a3×z+a4×t,其中,x、y、z、t分别为语义关联度、语义相似度、第一先验重要度、以及第二先验重要度对应的自变量,a1、a2、a3、a4则为待训练参数。并且,可以参照下式计算模型训练过程中的损失Loss:Loss=max(0,M-S-+S+),其中,M为超参数,S-表示负例,S+表示正例。
通过训练后的线性模型对语义关联度、语义相似度、以及先验重要度进行融合处理,得到融合结果后,即可基于融合结果,确定目标分词与候选匹配内容的语义匹配度。例如,可以直接将计算得到的融合结果S,作为目标分词与候选匹配内容的语义匹配度;又如,可以基于业务需求对融合结果S进行数据处理,得到处理后的S’,并将S’作为目标分词与候选匹配内容的语义匹配度。
104、基于语义匹配度,从候选匹配内容集中确定并输出目标分词的目标匹配内容。
由于计算得到的语义匹配度可以表征目标分词与候选匹配内容在语义层面上的匹配程度,因此,可以基于语义匹配度,对候选匹配内容进行排序,以使得可以基于排序结果,选择与目标分词在语义层面上的匹配程度满足需求的候选匹配内容作为目标匹配内容。具体地,步骤“基于语义匹配度,从候选匹配内容集中确定并输出目标分词的目标匹配内容”,可以包括:
基于语义匹配度,对候选匹配内容集中的候选匹配内容进行排序;
基于排序结果,从候选匹配内容集中确定并输出目标分词的目标匹配内容。
其中,排序的方式可以有多种,例如,可以直接以语义匹配度作为排序指标,对候选匹配内容集中的候选匹配内容进行排序;又如,可以基于业务需求对语义匹配度作进一步的数据处理,并以处理结果作为排序指标,对候选匹配内容集中的候选匹配内容进行排序;等等。
其中,基于排序结果确定目标匹配内容的方式可以有多种,例如,可以选取排序结果满足预设阈值条件的候选匹配内容作为目标匹配内容;又如,可以基于排序结果,选择预设比例的候选匹配内容作为目标匹配内容;等等。
在一实施例中,可以将本申请所述的基于文本处理的匹配方法应用于搜索中,则可以基于排序结果,输出目标匹配内容,以使得搜索客户端可以基于目标匹配内容向用户展示搜索结果。
在另一实施例中,可以将本申请所述的基于文本处理的匹配方法应用于问答系统中,则可以基于排序结果,输出目标匹配内容,以使得问答系统客户端可以基于目标匹配内容生成对话,与用户进行问答互动。
在另一实施例中,可以将本申请所述的基于文本处理的匹配方法应用于推荐系统中,则可以基于排序结果,输出目标匹配内容,以使得排序系统可以基于目标匹配内容生成推荐信息,并向用户进行推荐。
由上可知,本实施例可以获取待处理文本,其中,所述待处理文本包括待匹配的目标分词、以及与所述目标分词在语义层面上具有关联关系的关联分词;确定所述目标分词的候选匹配内容集,其中,所述候选匹配内容集包括所述目标分词的至少一个候选匹配内容,每个所述候选匹配内容具有对应的内容描述信息;基于所述目标分词与所述关联分词之间的关联关系、以及所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义匹配度;基于所述语义匹配度,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
该方案可以基于目标分词与其关联分词之间的关联关系,来计算目标分词与候选匹配内容的语义匹配度,这样的话,该方案在对目标分词进行内容匹配时,不单是仅焦距于该目标分词而已,而是考虑到在待处理文本中,目标分词与其关联分词之间具有很强的语义相关度,且该方案是基于该语义相关度来对目标分词进行内容匹配的,因此,这有助于提高匹配效率与匹配准确度。此外,当目标分词的关联分词也为待处理文本中的待匹配分词时,也即,当待处理文本中具有多个待匹配分词时,该方案是通过结合多个待匹配分词之间的语义相关度来进行内容匹配的,这样的话,相比于独立地依次对待处理文本中的每个待匹配分词进行内容匹配,该方案能够同时计算待处理文本中的多个待匹配分词之间的语义相关度,使得针对待处理文本中的多个待匹配分词的内容匹配效率得到了进一步的提升。
根据上面实施例所描述的方法,以下将举例进一步详细说明。
在本实施例中,将以基于文本处理的匹配装置集成在服务器与终端为例进行说明,该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群;该终端可以为手机、平板电脑、笔记本电脑等设备。
如图8所示,一种基于文本处理的匹配方法,具体流程如下:
201、终端向服务器发送待处理文本,其中,待处理文本包括待匹配的目标分词、以及与目标分词在语义层面上具有关联关系的关联分词。
在一实施例中,可以将本申请所述的基于文本处理的匹配方法应用于搜索中,终端可以运行有搜索客户端,并且,终端可以通过该搜索客户端获取用户输入的待处理文本。
作为示例,用户输入的待处理文本可以为“计算机中常见的协议有哪些”,其中,该待处理文本中包括待匹配的目标分词“协议”、以及与该目标分词在语义层面上具有关联关系的关联分词“计算机”。
终端通过搜索客户端获取用户输入的待处理文本后,可以将该待处理文本发送给服务器。
202、服务器获取终端发送的待处理文本。
203、服务器确定目标分词的候选匹配内容集,其中,候选匹配内容集包括目标分词的至少一个候选匹配内容,每个候选匹配内容具有对应的内容描述信息。
服务器可以确定目标分词“协议”的候选匹配内容集,其中,该候选匹配内容集中可以包括目标分词“协议”的至少一个候选匹配内容,例如,候选匹配内容可以包括“网络协议”,“用户协议”,“汉语词汇‘协议’”,等等。并且,每个候选匹配内容具有对应的内容描述信息,例如,内容描述信息可以包括内容简介信息与内容属性信息。
204、服务器基于目标分词与关联分词之间的关联关系、以及候选匹配内容的内容描述信息,计算目标分词与候选匹配内容的语义匹配度。
服务器可以基于目标分词“协议”与关联分词“计算机”之间的关联关系、以及各候选匹配内容的内容描述信息,计算目标分词与各候选匹配内容之间的语义匹配度。
例如,服务器可以基于目标分词与关联分词之间的关联关系,计算目标分词与候选匹配内容的语义关联度,其中,语义关联度表征目标分词与候选匹配内容在语义层面上的关联程度。此外,服务器可以基于候选匹配内容的内容描述信息,计算目标分词与候选匹配内容的语义相似度,其中,语义相似度表征目标分词与候选匹配内容在语义层面上的相似层度。进而,服务器可以基于语义关联度与语义相似度,计算目标分词与候选匹配内容的语义匹配度。
205、服务器基于语义匹配度,从候选匹配内容集中确定并输出目标分词的目标匹配内容。
例如,服务器可以基于目标分词“协议”与各候选匹配内容的语义匹配度,从候选匹配内容集中确定目标匹配内容为“网络协议”,并输出该目标匹配内容。
206、终端获取服务器输出的目标匹配内容。
对应地,终端可以获取服务器输出的目标匹配内容,并基于该目标匹配内容生成搜索结果,以便可以在搜索客户端中向用户展示搜索结果。
由上可知,本申请实施例可以基于目标分词与其关联分词之间的关联关系,来计算目标分词与候选匹配内容的语义匹配度,这样的话,该方案在对目标分词进行内容匹配时,不单是仅焦距于该目标分词而已,而是考虑到在待处理文本中,目标分词与其关联分词之间具有很强的语义相关度,且该方案是基于该语义相关度来对目标分词进行内容匹配的,因此,这有助于提高匹配效率与匹配准确度。此外,当目标分词的关联分词也为待处理文本中的待匹配分词时,也即,当待处理文本中具有多个待匹配分词时,该方案是通过结合多个待匹配分词之间的语义相关度来进行内容匹配的,这样的话,相比于独立地依次对待处理文本中的每个待匹配分词进行内容匹配,该方案能够同时计算待处理文本中的多个待匹配分词之间的语义相关度,使得针对待处理文本中的多个待匹配分词的内容匹配效率得到了进一步的提升。
为了更好地实施以上方法,相应的,本申请实施例还提供一种基于文本处理的匹配装置,其中,该基于文本处理的匹配装置可以集成在服务器或终端中。该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群;该终端可以为手机、平板电脑、笔记本电脑等设备。
例如,如图9所示,该基于文本处理的匹配装置可以包括获取单元301,确定单元302,计算单元303以及输出单元304,如下:
获取单元301,用于获取待处理文本,其中,所述待处理文本包括待匹配的目标分词、以及与所述目标分词在语义层面上具有关联关系的关联分词;
确定单元302,用于确定所述目标分词的候选匹配内容集,其中,所述候选匹配内容集包括所述目标分词的至少一个候选匹配内容,每个所述候选匹配内容具有对应的内容描述信息;
计算单元303,用于基于所述目标分词与所述关联分词之间的关联关系、以及所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义匹配度;
输出单元304,用于基于所述语义匹配度,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
在一实施例中,参考图10,所述计算单元303,可以包括:
第一计算子单元3031,可以用于基于所述目标分词与所述关联分词之间的关联关系,计算所述目标分词与所述候选匹配内容的语义关联度,其中,所述语义关联度表征所述目标分词与所述候选匹配内容在语义层面上的关联程度;
第二计算子单元3032,可以用于基于所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义相似度,其中,所述语义相似度表征所述目标分词与所述候选匹配内容在语义层面上的相似层度;
第三计算子单元3033,可以用于基于所述语义关联度与所述语义相似度,计算所述目标分词与所述候选匹配内容的语义匹配度。
在一实施例中,所述第一计算子单元3031,可以用于:
确定所述关联分词的候选匹配内容集,其中,所述关联分词的候选匹配内容集包括至少一个所述关联分词的候选匹配内容;基于所述目标分词与所述关联分词之间的关联关系,计算所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间的语义相关度,其中,所述语义相关度表征所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间在语义层面上的相关程度;基于所述语义相关度,确定所述目标分词与所述目标分词的候选匹配内容之间的语义关联度。
在一实施例中,所述第一计算子单元3031,可以具体用于:
确定每个所述候选匹配内容的内容引用集合,其中,所述内容引用集合包括所述候选匹配内容的至少一个引用内容,所述引用内容与所述候选匹配内容具有内容引用关系;基于所述目标分词的候选匹配内容对应的内容引用集合、以及所述关联分词的候选匹配内容对应的内容引用集合,计算所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间的语义相关度。
在一实施例中,所述第一计算子单元3031,可以具体用于:
针对所述目标分词的候选匹配内容对应的内容引用集合、以及所述关联分词的候选匹配内容对应的内容引用集合进行集合运算,得到运算后的目标引用集合,其中,所述目标引用集合包括至少一个目标引用内容,所述目标引用内容与所述目标分词的候选匹配内容具有内容引用关系,所述目标引用内容与所述关联分词的候选匹配内容具有内容引用关系;根据所述目标引用集合,计算所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间的语义相关度。
在一实施例中,所述内容描述信息包括所述候选匹配内容的内容简介信息和内容属性信息;所述第二计算子单元3032,可以用于:
获取所述目标分词在所述待处理文本中的上下文文本信息;对所述内容简介信息与所述内容属性信息进行组合,得到组合后的内容描述信息;基于所述上下文文本信息和所述组合后的内容描述信息,计算所述目标分词与所述候选匹配内容的语义相似度。
在一实施例中,所述第二计算子单元3032,可以具体用于:
计算所述内容属性信息与所述上下文文本信息之间的语义相关度,其中,所述语义相关度表征所述内容属性信息与所述上下文文本信息在语义层面上的相关程度;基于计算结果,从所述至少一项内容属性信息中选择目标内容属性信息;对所述内容简介信息与所述目标内容属性信息进行组合,得到组合后的内容描述信息。
在一实施例中,所述第二计算子单元3032,可以具体用于:
获取训练后的语义特征提取模型;通过所述语义特征提取模型,分别对所述上下文文本信息和所述组合后的内容描述信息进行特征提取,得到所述上下文文本信息对应的上下文语义特征、以及所述组合后的内容描述信息对应的内容语义特征;基于所述上下文语义特征、以及所述内容语义特征,计算所述目标分词与所述候选匹配内容的语义相似度。
在一实施例中,所述第二计算子单元3032,可以具体用于:
对所述上下文文本信息进行信息划分,得到划分后的上下文文本信息;对所述划分后的上下文文本信息进行特征转换,得到所述划分后的上下文文本信息对应的上下文文本特征;通过所述语义特征提取模型,基于注意力机制对所述上下文文本特征进行特征提取,得到所述上下文文本特征对应的上下文语义特征。
在一实施例中,所述第二计算子单元3032,可以具体用于:
确定待训练的语义特征提取模型、以及进行模型训练所需的样本数据集,其中,所述样本数据集包括样本文本,所述样本文本包括待匹配的样本分词、以及与所述样本分词在语义层面上具有关联关系的样本关联分词;确定所述样本分词的候选匹配内容集,其中,所述样本分词的候选匹配内容集包括所述样本分词的至少一个样本候选匹配内容;计算所述样本分词与所述样本候选匹配内容的语义匹配度;基于所述语义匹配度,对所述待训练的语义特征提取模型进行模型训练,得到训练后的语义特征提取模型。
在一实施例中,所述第三计算子单元3033,可以用于:
基于所述候选匹配内容之间的内容引用关系,确定所述候选匹配内容的先验重要度;对所述语义关联度、所述语义相似度、以及所述先验重要度进行融合处理,得到融合结果;基于所述融合结果,确定所述目标分词与所述候选匹配内容的语义匹配度。
在一实施例中,参考图11,所述输出单元304,可以包括:
排序子单元3041,可以用于基于所述语义匹配度,对所述候选匹配内容集中的候选匹配内容进行排序;
输出子单元3042,可以用于基于排序结果,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的基于文本处理的匹配装置中由获取单元301获取待处理文本,其中,所述待处理文本包括待匹配的目标分词、以及与所述目标分词在语义层面上具有关联关系的关联分词;由确定单元302确定所述目标分词的候选匹配内容集,其中,所述候选匹配内容集包括所述目标分词的至少一个候选匹配内容,每个所述候选匹配内容具有对应的内容描述信息;由计算单元303基于所述目标分词与所述关联分词之间的关联关系、以及所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义匹配度;由输出单元304基于所述语义匹配度,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
该方案可以基于目标分词与其关联分词之间的关联关系,来计算目标分词与候选匹配内容的语义匹配度,这样的话,该方案在对目标分词进行内容匹配时,不单是仅焦距于该目标分词而已,而是考虑到在待处理文本中,目标分词与其关联分词之间具有很强的语义相关度,且该方案是基于该语义相关度来对目标分词进行内容匹配的,因此,这有助于提高匹配效率与匹配准确度。此外,当目标分词的关联分词也为待处理文本中的待匹配分词时,也即,当待处理文本中具有多个待匹配分词时,该方案是通过结合多个待匹配分词之间的语义相关度来进行内容匹配的,这样的话,相比于独立地依次对待处理文本中的每个待匹配分词进行内容匹配,该方案能够同时计算待处理文本中的多个待匹配分词之间的语义相关度,使得针对待处理文本中的多个待匹配分词的内容匹配效率得到了进一步的提升。
此外,本申请实施例还提供一种计算机设备,该计算机设备可以为服务器或终端等设备,如图12所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括有一个或一个以上计算机可读存储介质的存储器401、包括有一个或者一个以上处理核心的处理器402、以及电源403等部件。本领域技术人员可以理解,图12中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
存储器401可用于存储软件程序以及模块,处理器402通过运行存储在存储器401的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器401可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器401还可以包括存储器控制器,以提供处理器402和输入单元603对存储器401的访问。
处理器402是计算机设备的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器401内的软件程序和/或模块,以及调用存储在存储器401内的数据,执行计算机设备的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器402可包括一个或多个处理核心;优选的,处理器402可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器402中。
计算机设备还包括给各个部件供电的电源403(比如电池),优选的,电源可以通过电源管理系统与处理器402逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,计算机设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,计算机设备中的处理器402会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器401中,并由处理器402来运行存储在存储器401中的应用程序,从而实现各种功能,如下:
获取待处理文本,其中,所述待处理文本包括待匹配的目标分词、以及与所述目标分词在语义层面上具有关联关系的关联分词;确定所述目标分词的候选匹配内容集,其中,所述候选匹配内容集包括所述目标分词的至少一个候选匹配内容,每个所述候选匹配内容具有对应的内容描述信息;基于所述目标分词与所述关联分词之间的关联关系、以及所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义匹配度;基于所述语义匹配度,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例的计算机设备可以基于目标分词与其关联分词之间的关联关系,来计算目标分词与候选匹配内容的语义匹配度,这样的话,该计算机设备在对目标分词进行内容匹配时,不单是仅焦距于该目标分词而已,而是考虑到在待处理文本中,目标分词与其关联分词之间具有很强的语义相关度,且该计算机设备是基于该语义相关度来对目标分词进行内容匹配的,因此,这有助于提高匹配效率与匹配准确度。此外,当目标分词的关联分词也为待处理文本中的待匹配分词时,也即,当待处理文本中具有多个待匹配分词时,该计算机设备是通过结合多个待匹配分词之间的语义相关度来进行内容匹配的,这样的话,相比于独立地依次对待处理文本中的每个待匹配分词进行内容匹配,该计算机设备能够同时计算待处理文本中的多个待匹配分词之间的语义相关度,使得针对待处理文本中的多个待匹配分词的内容匹配效率得到了进一步的提升。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种基于文本处理的匹配方法中的步骤。例如,该指令可以执行如下步骤:
获取待处理文本,其中,所述待处理文本包括待匹配的目标分词、以及与所述目标分词在语义层面上具有关联关系的关联分词;确定所述目标分词的候选匹配内容集,其中,所述候选匹配内容集包括所述目标分词的至少一个候选匹配内容,每个所述候选匹配内容具有对应的内容描述信息;基于所述目标分词与所述关联分词之间的关联关系、以及所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义匹配度;基于所述语义匹配度,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种基于文本处理的匹配方法中的步骤,因此,可以实现本申请实施例所提供的任一种基于文本处理的匹配方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述基于文本处理的匹配方面的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种基于文本处理的匹配方法、装置、计算机设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种基于文本处理的匹配方法,其特征在于,包括:
获取待处理文本,其中,所述待处理文本包括待匹配的目标分词、以及与所述目标分词在语义层面上具有关联关系的关联分词;
确定所述目标分词的候选匹配内容集,其中,所述候选匹配内容集包括所述目标分词的至少一个候选匹配内容,每个所述候选匹配内容具有对应的内容描述信息;
基于所述目标分词与所述关联分词之间的关联关系、以及所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义匹配度;
基于所述语义匹配度,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
2.根据权利要求1所述的基于文本处理的匹配方法,其特征在于,基于所述目标分词与所述关联分词之间的关联关系、以及所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义匹配度,包括:
基于所述目标分词与所述关联分词之间的关联关系,计算所述目标分词与所述候选匹配内容的语义关联度,其中,所述语义关联度表征所述目标分词与所述候选匹配内容在语义层面上的关联程度;
基于所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义相似度,其中,所述语义相似度表征所述目标分词与所述候选匹配内容在语义层面上的相似层度;
基于所述语义关联度与所述语义相似度,计算所述目标分词与所述候选匹配内容的语义匹配度。
3.根据权利要求2所述的基于文本处理的匹配方法,其特征在于,基于所述目标分词与所述关联分词之间的关联关系,计算所述目标分词与所述候选匹配内容的语义关联度,包括:
确定所述关联分词的候选匹配内容集,其中,所述关联分词的候选匹配内容集包括至少一个所述关联分词的候选匹配内容;
基于所述目标分词与所述关联分词之间的关联关系,计算所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间的语义相关度,其中,所述语义相关度表征所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间在语义层面上的相关程度;
基于所述语义相关度,确定所述目标分词与所述目标分词的候选匹配内容之间的语义关联度。
4.根据权利要求3所述的基于文本处理的匹配方法,其特征在于,基于所述目标分词与所述关联分词之间的关联关系,计算所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间的语义相关度,包括:
确定每个所述候选匹配内容的内容引用集合,其中,所述内容引用集合包括所述候选匹配内容的至少一个引用内容,所述引用内容与所述候选匹配内容具有内容引用关系;
基于所述目标分词的候选匹配内容对应的内容引用集合、以及所述关联分词的候选匹配内容对应的内容引用集合,计算所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间的语义相关度。
5.根据权利要求4所述的基于文本处理的匹配方法,其特征在于,基于所述目标分词的候选匹配内容对应的内容引用集合、以及所述关联分词的候选匹配内容对应的内容引用集合,计算所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间的语义相关度,包括:
针对所述目标分词的候选匹配内容对应的内容引用集合、以及所述关联分词的候选匹配内容对应的内容引用集合进行集合运算,得到运算后的目标引用集合,其中,所述目标引用集合包括至少一个目标引用内容,所述目标引用内容与所述目标分词的候选匹配内容具有内容引用关系,所述目标引用内容与所述关联分词的候选匹配内容具有内容引用关系;
根据所述目标引用集合,计算所述目标分词的候选匹配内容与所述关联分词的候选匹配内容之间的语义相关度。
6.根据权利要求2所述的基于文本处理的匹配方法,其特征在于,所述内容描述信息包括所述候选匹配内容的内容简介信息和内容属性信息;
基于所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义相似度,包括:
获取所述目标分词在所述待处理文本中的上下文文本信息;
对所述内容简介信息与所述内容属性信息进行组合,得到组合后的内容描述信息;
基于所述上下文文本信息和所述组合后的内容描述信息,计算所述目标分词与所述候选匹配内容的语义相似度。
7.根据权利要求6所述的基于文本处理的匹配方法,其特征在于,所述内容描述信息包括所述候选匹配内容的至少一项内容属性信息;
对所述内容简介信息与所述内容属性信息进行组合,得到组合后的内容描述信息,包括:
计算所述内容属性信息与所述上下文文本信息之间的语义相关度,其中,所述语义相关度表征所述内容属性信息与所述上下文文本信息在语义层面上的相关程度;
基于计算结果,从所述至少一项内容属性信息中选择目标内容属性信息;
对所述内容简介信息与所述目标内容属性信息进行组合,得到组合后的内容描述信息。
8.根据权利要求6所述的基于文本处理的匹配方法,其特征在于,基于所述上下文文本信息和所述组合后的内容描述信息,计算所述目标分词与所述候选匹配内容的语义相似度,包括:
获取训练后的语义特征提取模型;
通过所述语义特征提取模型,分别对所述上下文文本信息和所述组合后的内容描述信息进行特征提取,得到所述上下文文本信息对应的上下文语义特征、以及所述组合后的内容描述信息对应的内容语义特征;
基于所述上下文语义特征、以及所述内容语义特征,计算所述目标分词与所述候选匹配内容的语义相似度。
9.根据权利要求8所述的基于文本处理的匹配方法,其特征在于,通过所述语义特征提取模型,对所述上下文文本信息进行特征提取,得到所述上下文文本信息对应的上下文语义特征,包括:
对所述上下文文本信息进行信息划分,得到划分后的上下文文本信息;
对所述划分后的上下文文本信息进行特征转换,得到所述划分后的上下文文本信息对应的上下文文本特征;
通过所述语义特征提取模型,基于注意力机制对所述上下文文本特征进行特征提取,得到所述上下文文本特征对应的上下文语义特征。
10.根据权利要求8所述的基于文本处理的匹配方法,其特征在于,获取训练后的语义特征提取模型,包括:
确定待训练的语义特征提取模型、以及进行模型训练所需的样本数据集,其中,所述样本数据集包括样本文本,所述样本文本包括待匹配的样本分词、以及与所述样本分词在语义层面上具有关联关系的样本关联分词;
确定所述样本分词的候选匹配内容集,其中,所述样本分词的候选匹配内容集包括所述样本分词的至少一个样本候选匹配内容;
计算所述样本分词与所述样本候选匹配内容的语义匹配度;
基于所述语义匹配度,对所述待训练的语义特征提取模型进行模型训练,得到训练后的语义特征提取模型。
11.根据权利要求2所述的基于文本处理的匹配方法,其特征在于,基于所述目标分词与所述关联分词之间的关联关系,计算所述目标分词与所述候选匹配内容的语义关联度,包括:
基于所述候选匹配内容之间的内容引用关系,确定所述候选匹配内容的先验重要度;
对所述语义关联度、所述语义相似度、以及所述先验重要度进行融合处理,得到融合结果;
基于所述融合结果,确定所述目标分词与所述候选匹配内容的语义匹配度。
12.根据权利要求1所述的基于文本处理的匹配方法,其特征在于,基于所述语义匹配度,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容,包括:
基于所述语义匹配度,对所述候选匹配内容集中的候选匹配内容进行排序;
基于排序结果,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
13.一种基于文本处理的匹配装置,其特征在于,包括:
获取单元,用于获取待处理文本,其中,所述待处理文本包括待匹配的目标分词、以及与所述目标分词在语义层面上具有关联关系的关联分词;
确定单元,用于确定所述目标分词的候选匹配内容集,其中,所述候选匹配内容集包括所述目标分词的至少一个候选匹配内容,每个所述候选匹配内容具有对应的内容描述信息;
计算单元,用于基于所述目标分词与所述关联分词之间的关联关系、以及所述候选匹配内容的所述内容描述信息,计算所述目标分词与所述候选匹配内容的语义匹配度;
输出单元,用于基于所述语义匹配度,从所述候选匹配内容集中确定并输出所述目标分词的目标匹配内容。
14.一种电子设备,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至12任一项所述的基于文本处理的匹配方法中的操作。
15.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至12任一项所述的基于文本处理的匹配中的步骤。
CN202110448628.8A 2021-04-25 2021-04-25 基于文本处理的匹配方法、装置、计算机设备和存储介质 Pending CN113761887A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110448628.8A CN113761887A (zh) 2021-04-25 2021-04-25 基于文本处理的匹配方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110448628.8A CN113761887A (zh) 2021-04-25 2021-04-25 基于文本处理的匹配方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113761887A true CN113761887A (zh) 2021-12-07

Family

ID=78786931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110448628.8A Pending CN113761887A (zh) 2021-04-25 2021-04-25 基于文本处理的匹配方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113761887A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628315A (zh) * 2023-04-07 2023-08-22 百度在线网络技术(北京)有限公司 搜索方法、深度学习模型的训练方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628315A (zh) * 2023-04-07 2023-08-22 百度在线网络技术(北京)有限公司 搜索方法、深度学习模型的训练方法、装置及电子设备
CN116628315B (zh) * 2023-04-07 2024-03-22 百度在线网络技术(北京)有限公司 搜索方法、深度学习模型的训练方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Kumar et al. Earth mover's distance pooling over siamese LSTMs for automatic short answer grading
Torabi et al. Learning language-visual embedding for movie understanding with natural-language
CN112182166B (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN109271537B (zh) 一种基于蒸馏学习的文本到图像生成方法和系统
CN109918487A (zh) 基于网络百科全书的智能问答方法和系统
CN110728298A (zh) 多任务分类模型训练方法、多任务分类方法及装置
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
Benavent et al. Multimedia information retrieval based on late semantic fusion approaches: Experiments on a wikipedia image collection
CN113011172B (zh) 文本处理方法、装置、计算机设备和存储介质
CN111506596B (zh) 信息检索方法、装置、计算机设备和存储介质
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN110717038B (zh) 对象分类方法及装置
CN116821307B (zh) 内容交互方法、装置、电子设备和存储介质
CN113569011A (zh) 文本匹配模型的训练方法、装置、设备及存储介质
CN110895656A (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN113761887A (zh) 基于文本处理的匹配方法、装置、计算机设备和存储介质
CN111223014B (zh) 一种从大量细分教学内容在线生成细分场景教学课程的方法和系统
Pathuri et al. Feature based sentimental analysis for prediction of mobile reviews using hybrid bag-boost algorithm
Assem et al. QASAR: self-supervised learning framework for extractive question answering
CN115269961A (zh) 内容搜索方法以及相关设备
Yu et al. Character grounding and re-identification in story of videos and text descriptions
CN116955599A (zh) 一种类目确定的方法、相关装置、设备以及存储介质
CN114328820A (zh) 信息搜索方法以及相关设备
Ishmam et al. From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination