CN113011172A - 文本处理方法、装置、计算机设备和存储介质 - Google Patents

文本处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113011172A
CN113011172A CN202110276795.9A CN202110276795A CN113011172A CN 113011172 A CN113011172 A CN 113011172A CN 202110276795 A CN202110276795 A CN 202110276795A CN 113011172 A CN113011172 A CN 113011172A
Authority
CN
China
Prior art keywords
text
vector
participle
word
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110276795.9A
Other languages
English (en)
Other versions
CN113011172B (zh
Inventor
李伟康
陈小帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110276795.9A priority Critical patent/CN113011172B/zh
Publication of CN113011172A publication Critical patent/CN113011172A/zh
Application granted granted Critical
Publication of CN113011172B publication Critical patent/CN113011172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种文本处理方法、装置、计算机设备和存储介质。所述方法包括:获取第一文本和第二文本;对所述第一文本进行分词处理,获得所述第一文本对应的第一分词;确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量;获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;基于所述目标词向量确定所述第一文本的文本向量;基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果。采用本方法能够提高文本相关性度量的准确性。

Description

文本处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了自然语言处理技术,在自然语言处理技术中,经常需要进行文本相关性度量,文本相关性度量指的是两个文本相似性的计算算法,好的文本相关性度量是视频搜索和推荐等相关业务所必需具备的重要能力。
相关技术中,在进行文本相关性度,通常只考虑到两个文本之间的共现特征,导致文本相关性度量的准确性不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本相关性度量准确性的文本处理方法、装置、计算机设备和存储介质。
一种文本处理方法,所述方法包括:
获取第一文本和第二文本;
对所述第一文本进行分词处理,获得所述第一文本对应的第一分词;
确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量;
获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
基于所述目标词向量确定所述第一文本的文本向量;
基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果。
一种文本处理装置,所述装置包括:
文本获取模块,用于获取第一文本和第二文本;
分词处理模块,用于对所述第一文本进行分词处理,获得所述第一文本对应的第一分词;
关联词向量确定模块,用于确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量;
目标词向量确定模块,用于获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
文本向量确定模块,用于基于所述目标词向量确定所述第一文本的文本向量;
度量结果确定模块,用于基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取第一文本和第二文本;
对所述第一文本进行分词处理,获得所述第一文本对应的第一分词;
确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量;
获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
基于所述目标词向量确定所述第一文本的文本向量;
基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取第一文本和第二文本;
对所述第一文本进行分词处理,获得所述第一文本对应的第一分词;
确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量;
获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
基于所述目标词向量确定所述第一文本的文本向量;
基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果。
上述文本处理方法、装置、计算机设备和存储介质,在获取到第一文本和第二文本后,对所述第一文本进行分词处理,获得所述第一文本对应的第一分词,确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量,获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量,基于所述目标词向量确定所述第一文本的文本向量,最后基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果,由于获取了第一分词的关联词向量并与映射词向量进行拼接得到第一分词的目标词向量,根据目标向量来确定第一文本的文本向量,考虑了文本的关联特征,丰富了文本向量的表达,相较于相关技术中只考虑两个文本之间的共现特征,本申请得到的相关性度量结果更加准确。
一种文本处理方法,所述方法包括:
获取搜索文本及候选视频集合中候选视频对应的标题文本;
对所述搜索文本进行分词处理,获得所述搜索文本对应的第一分词;
确定所述第一分词对应的关联词集合,基于所述第一分词对应的关联词集合得到所述第一分词对应的关联词向量;
获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
基于所述目标词向量确定所述搜索文本的文本向量;
基于所述标题文本的文本向量和所述搜索文本的文本向量确定所述标题文本和所述搜索文本之间的相关性度量结果;
基于所述相关性度量结果对所述候选视频集合中的候选视频进行排序,根据得到的排序结果确定所述搜索文本对应的目标展示视频。
在一些实施例中,在所述基于所述标题文本的文本向量和所述搜索文本的文本向量确定所述标题文本和所述搜索文本之间的相关性度量结果之前,所述方法还包括:
对所述标题文本进行分词处理,获得所述标题文本对应的第二分词;
确定所述第二分词对应的关联词集合,基于所述第二分词对应的关联词集合得到所述第二分词对应的关联词向量;
获取所述第二分词对应的映射词向量,拼接所述第二分词对应的映射词向量和关联词向量,得到所述第二分词对应的目标词向量;
基于所述第二分词对应的目标词向量确定所述标题文本的文本向量。
一种文本处理装置,所述装置包括:
文本获取模块,用于获取搜索文本及候选视频集合中候选视频对应的标题文本;
分词处理模块,用于对所述搜索文本进行分词处理,获得所述搜索文本对应的第一分词;
关联词向量确定模块,用于确定所述第一分词对应的关联词集合,基于所述第一分词对应的关联词集合得到所述第一分词对应的关联词向量;
目标词向量获得模块,用于获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
文本向量确定模块,用于基于所述目标词向量确定所述搜索文本的文本向量;
文本向量确定模块,用于基于所述标题文本的文本向量和所述搜索文本的文本向量确定所述标题文本和所述搜索文本之间的相关性度量结果;
排序模块,用于基于所述相关性度量结果对所述候选视频集合中的候选视频进行排序,根据得到的排序结果确定所述搜索文本对应的目标展示视频。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取搜索文本及候选视频集合中候选视频对应的标题文本;
对所述搜索文本进行分词处理,获得所述搜索文本对应的第一分词;
确定所述第一分词对应的关联词集合,基于所述第一分词对应的关联词集合得到所述第一分词对应的关联词向量;
获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
基于所述目标词向量确定所述搜索文本的文本向量;
基于所述标题文本的文本向量和所述搜索文本的文本向量确定所述标题文本和所述搜索文本之间的相关性度量结果;
基于所述相关性度量结果对所述候选视频集合中的候选视频进行排序,根据得到的排序结果确定所述搜索文本对应的目标展示视频。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取搜索文本及候选视频集合中候选视频对应的标题文本;
对所述搜索文本进行分词处理,获得所述搜索文本对应的第一分词;
确定所述第一分词对应的关联词集合,基于所述第一分词对应的关联词集合得到所述第一分词对应的关联词向量;
获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
基于所述目标词向量确定所述搜索文本的文本向量;
基于所述标题文本的文本向量和所述搜索文本的文本向量确定所述标题文本和所述搜索文本之间的相关性度量结果;
基于所述相关性度量结果对所述候选视频集合中的候选视频进行排序,根据得到的排序结果确定所述搜索文本对应的目标展示视频。
上述文本处理方法、装置、计算机设备和存储介质,通过获取搜索文本及候选视频集合中候选视频对应的标题文本,对所述搜索文本进行分词处理,获得所述搜索文本对应的第一分词,确定所述第一分词对应的关联词集合,基于所述第一分词对应的关联词集合得到所述第一分词对应的关联词向量,获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量,基于所述目标词向量确定所述搜索文本的文本向量,基于所述标题文本的文本向量和所述搜索文本的文本向量确定所述标题文本和所述搜索文本之间的相关性度量结果,基于所述相关性度量结果对所述候选视频集合中的候选视频进行排序,根据得到的排序结果确定所述搜索文本对应的目标展示视频,由于获取了第一分词的关联词向量并与映射词向量进行拼接得到第一分词的目标词向量,根据目标向量来确定第一文本的文本向量,考虑了文本的关联特征,丰富了文本向量的表达,相较于相关技术中只考虑两个文本之间的共现特征,本申请得到的相关性度量结果更加准确,根据相关性度量结果对候选视频进行排序后确定目标展示视频,可以提升展示视频的内容质量,降低无关视频内容对用户观看兴趣的干扰。
附图说明
图1为一个实施例中文本处理方法的应用环境图;
图2为一个实施例中文本处理方法的流程示意图;
图3为一个实施例中获取第一分词的关联词向量的步骤流程示意图;
图4为一个实施例中确定所述第一文本的文本向量的步骤流程示意图;
图5为一个实施例中对第一文本和第二文本进行融合的步骤流程示意图;
图6为另一个实施例中对第一文本和第二文本进行融合的步骤流程示意图;
图7为一个实施例中注意力机制的示意图;
图7A为一个实施例中文本处理模型的结构图;
图8为另一个实施例中文本处理方法的流程示意图;
图9为一个实施例中文本处理装置的结构框图;
图10为另一个实施例中文本处理装置的结构框图;
图11为一个实施例中计算机设备的内部结构图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习、自然语言处理等技术,具体通过如下实施例进行说明:
本申请提供的文本处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。
终端102和服务器104均可单独执行本申请的文本处理方法。例如,终端获取第一文本和第二文本;对所述第一文本进行分词处理,获得所述第一文本对应的第一分词,确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量,获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量,基于所述目标词向量确定所述第一文本的文本向量,终端最后基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果。
终端102和服务器104也可以协同配合执行本申请的文本处理方法。例如,终端可以获取用户输入的文本作为第一文本,并将第一文本发送至服务器,服务器104从第二文本集合中获取第二文本,基于第一文本和第二文本进行文本相关性度量,服务器可以首先对第一文本进行分词处理,获得第一文本对应的第一分词,确定第一分词对应的关联词集合,基于关联词集合得到第一分词对应的关联词向量,获取第一分词对应的映射词向量,拼接第一分词对应的映射词向量和关联词向量,得到第一分词对应的目标词向量,基于目标词向量确定第一文本的文本向量,服务器进一步可以获取第二文本的文本向量,最后基于第二文本的文本向量和第一文本的文本向量确定第一文本和第二文本之间的相关性度量结果。
需要说明的是,基于服务器进一步可以基于计算得到的相关性度量结果对第二文本集合中的第二文本进行排序,根据排序结果,服务器可以确定与第一文本对应的目标第二文本,基于目标第二文本,服务器可以对终端进行内容推送。可以理解,根据不同的应用场景,推送的内容并不相同,例如,在视频搜索过程中对用户输入的查询文本匹配相似视频或者对视频的评论根据与视频本身内容的相关性进行排序展示等。
需要说明的是,在本申请中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一些实施例中,如图2所示,提供了一种文本处理方法,可以理解,文本处理方法可以由终端或服务器单独执行,也可以由终端和服务器协同执行。在本实施例中,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取第一文本和第二文本。
其中,第一文本和第二文本指的是需要进行相关性度量的两个文本,例如,第一文本可以是用户输入的搜索文本,第二文本可以是用户搜索的内容对应的文本,例如可以是商品标题文本、视频标题文本等等。第一文本和第二文本语言可以根据实际需要确定,例如目标文本可以是中文语句,也可以是日文语句。第一文本和第二文本的长度不固定,可以是一个词语或者多个词语组成的文本。
具体地,服务器可以从终端获取第一文本和第二文本,或者服务器可以从终端获取第一文本,从数据库中获取第二文本,服务器还可以从数据库中获取到第一文本和第二文本,本实施例中,对于第一文本和第二文本的来源、第一文本和第二文本的获取方式不做限定。
在一些实施例中,终端可安装有带有搜索功能的应用程序,例如,终端可安装有可进行视频搜索的视频类应用程序,用户通过该应用程序输入搜索文本,将搜索文本发送至终端,服务器根据应用程序的搜索内容从数据库中获取到第二文本,进而基于第一文本和第二文本进行文本相关性度量。
步骤204,对第一文本进行分词处理,获得第一文本对应的第一分词。
其中,分词处理指的是根据文本得到文本对应的至少一个词语的过程。分词处理后得到的一个或多个词语称为分词。例如,假设第一文本为“今天是星期天”,则得到的第一分词可以为{今天是星期天}。
具体地,服务器在对第一文本进行分词处理时,可采用相关技术中提供的任意分词方法实现。例如,服务器可以采用基于词典或基于统计的分词方法。
在一些实施例中,服务器在对第一文本进行分词后,可对得到的分词进行过滤,过滤掉其中无实际语义的词,例如“的”、“了”等等。
步骤206,确定第一分词对应的关联词集合,基于关联词集合得到第一分词对应的关联词向量。
其中,第一分词对应的关联词集合指的是第一分词对应的关联词组成的集合,第一分词对应的关联词与第一分词具有语义上的关联关系,这里的关联关系可以是同义关系,也可以是上下位关系,对应的,关联词可以是同义词、上下位词。
具体地,对于第一文本对应的第一分词,服务器可以根据该第一分词查找对应的关联词集合,基于该关联词集合可以得到该第一分词对应的关联词向量。第一分词对应的关联词向量可以是基于关联词集合中的一个或多个关联词得到的。在查找关联词集合时,服务器可以基于预先建立的同义词词典、上下位词词典进行查找,也可以基于预先建立的结构化知识库进行查找。预先建立的结构化知识库例如可以是wordNet知识库或者ConcepNet知识库。除结构化知识库外,服务器还可以基于预先建立的半结构化知识库进行查找,例如,将同义词存储为表格中的同一列,并通过列名对列中元素进行抽象概括。
可以理解,当第一文本对应多个第一分词时,服务器分别对每一个第一分词查找对应的关联词集合,对于成功查找到关联词集合的第一分词,服务器基于其对应的关联词集合得到对应的关联词。
在一些实施例中,服务器可以从关联词集合中随机选取一个关联词,对该关联词进行词向量映射,将得到的映射词向量作为第一分词对应的关联词向量。在另一些实施例中,服务器可以从关联词集合选取多个关联词,对每一个关联词进行词向量映射,分别得到每一个关联词对应的映射词向量,将这些映射词向量取平均得到对应的平均向量作为第一分词对应的关联词向量。在进行词向量映射时,可预先训练词向量映射模型,将关联词输入词向量映射模型中,即可得到对应的映射词向量。词向量映射模型指的是可以将一个词语映射为对应的词向量的机器学习模型,可通过在已标注词向量的词训练集上进行有监督训练得到,词向量映射模型例如可以是word2vec模型、glove模型等等。
在一些实施例中,对于知识库中每个关联词集合,服务器中预先对该关联词集合计算对应的关联词向量,将关联词集合与对应的关联词向量进行关联存储,那么服务器在获到该关联词集合后,可以基于该关联词集合直接查找到对应的关联词向量。其中,关联词集合对应的关联词向量可以是基于关联词集合中一个或者多个关联词的词向量得到的,具体参见上文实施例中的描述。通过预先对关联词集合计算对应的关联词向量,可以节省文本相关性度量时计算关联词向量的时间,提高文本相关性度量的效率。
步骤208,获取第一分词对应的映射词向量,拼接第一分词对应的映射词向量和关联词向量,得到第一分词对应的目标词向量。
其中,第一分词对应的映射词向量指的是对第一分词进行词向量映射得到的词向量。
具体地,服务器可通过已训练的词向量映射模型对第一分词进行词向量映射得到对应的映射词向量。在一些实施例中,为确保词向量对齐,此处进行词向量映射采用的词向量映射模型与上文中对关联词进行词向量映射时采用的词向量映射模型为相同的模型或者采用相同的训练样本集训练得到。
服务器在获取到第一分词对应的映射词向量后,拼接第一分词对应的映射词向量和关联词向量,得到第一分词对应的目标词向量,这里的拼接相当于对第一分词的映射词向量和关联词向量进行融合的过程,拼接后得到的目标词向量由于融合了映射词向量和关联词向量,可以丰富第一分词的向量表示,从而更好地对第一分词进行表达。
在一些实施例中,拼接的方式可以是水平拼接。举个例子,假设“猴子”对应的映射词向量表示为(a1,a2……ak)以及“猴子”对应的关联词向量表示为(b1,b2……bk),则水平拼接得到的知识融入向量为表示为(a1,a2……ak,b1,b2……bk)。
步骤210,基于目标词向量确定第一文本的文本向量。
其中,第一文本对应的文本向量为对第一文本进行整体表示的向量。
具体地,服务器可以基于目标词向量对第一文本进行编码得到第一文本对应的文本向量。编码是将信息从一种形式或格式转换为另一种形式或格式的过程。
在一些实施例中,服务器可选择传统的编码函数基于目标词向量对第一文本进行编码,得到第一文本的文本向量。传统的编码函数,如基于SIFT(Scale Invariant FeatureTransform,尺度不变特征变换)算法或HOG(Histogram of Oriented Gradient,方向梯度直方图)算法的编码函数等。
在另外一些实施例中,计算机设备也可以选择基于机器学习的神经网络来对第一文本进行。该用来编码的神经网络具体可以是基于卷积运算的编码模型,例如循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(LSTM,Long Short-Term Memory)、BiLSTM、门循环单元(GateRecurrent Unit,GRU)、BiGRU等等。其中,CNN是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks);RNN是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network);LSTM是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,其中所有的RNN都具有一种重复神经网络模块的链式形式,前向的LSTM和后向的LSTM结合成BiLSTM;GRU是RNN的一种,和LSTM一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的,前向的GRU和后向的GRU结合成BiGRU。
步骤212,基于第二文本的文本向量和第一文本的文本向量确定第一文本和第二文本之间的相关性度量结果。
其中,相关性度量结果用于表征第一文本和第二文本是否相关。
具体地,服务器可以获取第二文本的文本向量,根据第二文本的文本向量和第一文本的文本向量确定第一文本和第二文本之间的相关性度量结果。
在一些实施例中,相关性度量结果可以为第一文本和第二文本之间的相似度。相似度与相关程度呈正相关,即相似度越大,则表明第一文本和第二文本的相关程度越高,反之,相似度越小,则表明第一文本和第二文本的相关程度越低。服务器可以计算第二文本的文本向量和第一文本的文本向量之间的夹角余弦值或者向量距离,将计算得到的夹角余弦值或者向量距离确定为第一文本和第二文本之间的相似度。
在一些实施例中,服务器可以对第二文本的文本向量和第一文本的文本向量进行融合,然后通过可用于分类的机器学习模型对融合得到的向量进行是否相关的二分类,将分类结果作为相关性度量结果。例如,若最终分类结果为1,表示两个文本相关,且预测为1的概率值表征了两个文本的相关程度,若最终分类结果为0,表示两个文本不相关,且预测为0的概率值表征了两个文本的不相关程度。
在一些实施例中,服务器在获取到第二文本后,可通过上述步骤204-210的步骤确定第二文本的文本向量,即对第二文本进行分词处理,获得第二文本对应的第二分词;确定第二分词对应的关联词集合,基于第二分词对应的关联词集合得到第二分词对应的关联词向量;获取第二分词对应的映射词向量,拼接第二分词对应的映射词向量和关联词向量,得到第二文本对应的目标词向量;基于第二文本对应的目标词向量确定第二文本的文本向量。在另外一些实施例中,服务器可以采用相关技术中任意可以实现由文本得到文本向量的方法来确定第二文本的文本向量。
上述文本处理方法中,在获取到第一文本和第二文本后,对第一文本进行分词处理,获得第一文本对应的第一分词,确定第一分词对应的关联词集合,基于关联词集合得到第一分词对应的关联词向量,获取第一分词对应的映射词向量,拼接第一分词对应的映射词向量和关联词向量,得到第一分词对应的目标词向量,基于目标词向量确定第一文本的文本向量,最后基于第二文本的文本向量和第一文本的文本向量确定第一文本和第二文本之间的相关性度量结果,由于获取了第一分词的关联词向量并与映射词向量进行拼接得到第一分词的目标词向量,根据目标向量来确定第一文本的文本向量,考虑了文本的关联特征,丰富了文本向量的表达,相较于相关技术中只考虑两个文本之间的共现特征,本申请得到的相关性度量结果更加准确。
在一些实施例中,关联词集合包括同义词集合;确定第一分词对应的关联词集合,基于关联词集合得到第一分词对应的关联词向量包括:将第一分词分别与预先建立的知识库中的词语进行匹配,将匹配成功的词语所在的语义集合确定为第一分词对应的同义词集合;获取第一分词对应的同义词集合中多个同义词的映射词向量,基于同义词集合对应的多个映射词向量得到同义词集合的同义词平均向量;基于第一分词对应的同义词平均向量确定第一分词的关联词向量。
其中,预先建立的知识库中的语义集合是由相同语义的词语组成的集合;该知识库中,语义集合之间是通过关系边进行连接的。例如,泻肚、腹泻、拉肚子可以组成语义集合。通过关系边进行连接的两个语义集合之间具有上下位关系。可以理解,语义集合之间的边越短,两个语义集合关系越近。预先建立的知识库可以是相关技术中已经建立好的知识库,具备语义集合且语义集合之间通过关系边连接的知识库均可作为本申请所应用到的知识库,例如,预先建立的知识库可以是wordNet知识库、ConcepNet知识库等等。预先建立的知识库也可以是通过收集同义词建立的,例如可以根据同义词词林等同义词词典建立语义集合,并通过查询知识图谱进一步建立语义集合之间的关系边得到知识库。
具体地,由于预先建立的知识库中相同语义的词语组成语义集合,那么对于第一文本对应的第一分词,服务器可以将第一分词与预先建立的知识库中的词语进行匹配,当第一分词与知识库中任意一个词语的相似度超过预设阈值时,判定词语与第一分词匹配成功,将匹配成功的词语所在的语义集合确定为第一分词对应的同义词集合,服务器进一步获取同义词集合中多个同义词的映射词向量,将多个映射词向量取平均值,得到同义词集合对应的同义词平均向量,基于同义词平均向量确定第一分词的关联词向量。在一个具体的实施例中,服务器可以将同义词平均向量直接确定为第一分词的关联词向量。
可以理解,其中同义词集合中多个同义词指的是至少两个同义词。在一些实施例中,服务器可以获取该同义词集合中所有的同义词的映射词向量,对这些映射词向量取平均得到该同义词集合对应的同义词平均向量。
可以理解,当第一文本对应多个第一分词时,服务器可以分别将每一个第一分词分别与预先建立的知识库中的词语进行匹配,若从知识库中成功匹配到同义词,则将该同义词所在语义集合确定为该第一分词的同义词集合,并根据该同义词集合获取同义词平均向量,从而基于该同义词平均向量为该第一分词确定关联词向量。
在一些实施例中,关联词集合还包括上下位语义集合,如图3所示,确定第一分词对应的关联词集合,基于关联词集合得到第一分词对应的关联词向量包括:
步骤302,将第一分词分别与预先建立的知识库中的词语进行匹配,将匹配成功的词语所在的语义集合确定为第一分词对应的同义词集合。
其中,预先建立的知识库中的语义集合是由相同语义的词语组成的集合;该知识库中,语义集合之间是通过关系边进行连接的。
步骤304,获取第一分词对应的同义词集合中多个同义词的映射词向量,基于同义词集合对应的多个映射词向量得到同义词集合的同义词平均向量。
步骤306,从预先建立的知识库中查找与第一分词对应的同义词集合通过关系边连接的语义集合,得到第一分词对应的上下位语义集合。
其中,第一分词对应的上下位语义集合指的是与第一分词对应的上下位词组成的集合,第一分词对应的上下位词语第一分词之间具有上下位关系。其中,上下位词语为上位词或者下位词。概括性较强的单词叫做特定性较强的词语的上位词(Hypernym),特定性较强的单词叫做概括性较强的词语的下位词(hyponym)。例如,猩红色、鲜红色、胭脂红、绯红色都是“红色”的下位词,而红色则是猩红色的上位词。可以理解,上下位关系可以表征语义间的蕴含或者推断关系。
具体地,预先建立的知识库中语义集合之间通过关系边进行连接,那么对于第一文本对应的第一分词,服务器在确定了第一分词所在的语义集合后,可以从知识库中定位该语义集合,并进一步查找与该语义集合通过关系边连接的语义集合,得到第一分词对应的上下位语义集合。通常,这里的上下位语义集合可以是上位语义集合、下位语义集合中的至少一个。
步骤308,获取第一分词对应的上下位语义集合中多个上下位词的映射词向量,基于上下位语义集合对应的多个映射词向量得到上下位语义集合的上下位平均向量。
具体地,对于第一分词对应的上下位语义集合,获取该上下位语义集合中多个上下位词的映射词向量,将该上下位语义集合对应的多个映射词向量取平均,得到该第一分词对应的上下位平均向量。
可以理解,其中上下位语义集合中多个上下位词指的是至少两个上下位词。在一些实施例中,服务器可以获取该上下位语义集合中所有的上下位词的映射词向量,对这些映射词向量取平均得到该上下位语义集合对应的上下位平均向量。
在一些实施例中,当根据第一分词所在的语义集合查找到的上下位语义集合包括多个时,例如,上下位语义集合包括上位语义集合和至少一个下位语义集合时,对于每一个上下位语义集合,服务器获取该上下位语义集合中多个上下位词的映射词向量,将多个映射词向量取平均得到该上下位语义集合对应的平均向量,服务器进一步将多个上下位语义集合的平均向量进行融合得到该第一分词的上下位平均向量。这里的融合指的是用一个向量表示多个向量,融合包括但不限于是拼接、求和等等。
步骤310,融合第一分词对应的同义词平均向量与上下位平均向量,得到第一分词的关联词向量。
具体地,服务器在获得第一分词对应的同义词平均向量与上下位平均向量后,融合同义词平均向量与上下位平均向量,得到第一分词的关联词向量。这里的融合可以是对同义词平均向量与上下位平均向量进行拼接或者加权求和。其中的拼接具体可以是水平拼接。
上述实施例中,通过从预先建立的知识库中查找第一分词的同义词集合和上下位语义集合,通过融合同义词的平均向量和上下位集合的平均向量来得到关联词向量,由于同义词集合可以丰富文本中词语的表达方式,上下位语义集合可以强化文本的蕴含关系和推断关系表达,因此,最终得到的文本向量能够更好的表达文本,使得在进行文本相关性度量时,得到的相关性度量结果更加准确。
在一些实施例中,如图4所示,基于目标词向量确定第一文本的文本向量包括:
步骤402,对各个目标词向量按照对应的第一分词在第一文本中的先后顺序进行前向编码,得到各个目标词向量的前向编码向量。
其中,前向编码指的是按照前向方向进行编码,前向方向指的是从文本中的第一个词指向最后一个词的方向。例如,假设第一文本为“今天是星期五”,则前向方向为“今天-是-星期五”。
具体地,服务器按照各个目标词向量对应的第一分词在第一文本中的先后顺序依次对各个目标词向量进行前向编码,得到各个目标词向量的前向编码向量,即先编码对应的第一分词排序在最前的目标词向量,然后编码排序在该第一分词的下一位的第一分词对应的目标词向量,依次类推,直至所有的目标词向量编码完成。
举个例子,假设第一文本为“今天是星期五”,得到的第一分词为“今天”、“是”、“星期五”,则在进行前向编码时,首先编码“今天”对应的目标词向量,接着编码“是”对应的目标词向量,最后编码“星期五”对应的目标词向量。
在一些实施例中,服务器可以采用BiGRU网络对各个目标词向量按照对应的第一分词在第一文本中的先后顺序进行前向编码,得到各个目标词向量的前向编码向量,具体的公式参见下面的公式(1)-公式(4):
rj=σ(Wrkj+Urhj-1+br) (1)
zj=σ(Wzkj+Uzhj-1+bz) (2)
Figure BDA0002976977340000171
Figure BDA0002976977340000172
其中,Wr,Ur,br,Wz,Uz,bz,Wh,Uh,bh均为相应的权重,为BiGRU的模型参数;rj为BiGRU网络中重置门j时刻的输出,σ为sigmod函数,kj为当前时刻输入,hj-1为j-1时刻BiGRU网络的输出;zj为BiGRU网络中更新门的输出,hj为当前时刻BiGRU网络的输出。
步骤404,对各个目标词向量按照对应的第一分词在第一文本中的先后顺序进行后向编码,得到各个目标词向量的后向编码向量。
其中,后向编码指的是按照后向方向进行编码,后向方向指的是从文本中的最后一个词指向最后第一个词的方向。例如,假设第一文本为“今天是星期五”,则后向方向为“星期五-是-今天”。
具体地,服务器按照各个目标词向量对应的第一分词在第一文本中的先后顺序依次对各个目标词向量进行后向编码,得到各个目标词向量的后向编码向量,即先编码对应的第一分词排序在最后的目标词向量,然后编码排序在该第一分词的上一位的第一分词对应的目标词向量,依次类推,直至所有的目标词向量编码完成。
举个例子,假设第一文本为“今天是星期五”,得到的第一分词为“今天”、“是”、“星期五”,则在进行前向编码时,首先编码“星期五”对应的目标词向量,接着编码“是”对应的目标词向量,最后编码“今天”对应的目标词向量。
步骤406,融合各个目标词向量的前向编码向量与后向编码向量,得到各个目标词向量对应的融合向量。
具体地,对于每一个目标词向量,服务器将该目标词向量的前向编码向量与后向编码向量进行融合,融合完成后得到该目标词向量对应的融合向量。其中的融合指的是用一个向量表示,前向编码向量与后向编码向量这两个向量的过程,融合具体可以是拼接、加权求和等等。
步骤408,根据各个融合向量得到第一文本对应的文本向量。
在一些实施例中,服务器可以将各个融合向量按照对应的第一分词在第一文本中的先后顺序进行组合得到第一文本的文本向量,例如,假设第一文本为“今天是星期五”,最终编码得到“今天”的融合向量为A1,“是”的融合向量为A2,“星期五”的融合向量为A3,则最终组合得到的第一文本的文本向量为A1A2A3。
在另一些实施例中,服务器可以对所有第一分词的融合向量取平均,得到对应的平均向量,将得到的平均向量作为第一文本的文本向量,如上面的例子中,最终得到的第一文本的文本向量为(A1+A2+A3)/3。
上述实施例中,通过对目标词向量进行双向编码,得到的文本向量能够更加准确的表达第一文本,从而进一步提升文本度量的准确性。
在一些实施例中,基于第二文本的文本向量和第一文本的文本向量确定第一文本和第二文本之间的相关性度量结果包括:获取已训练的文本处理模型;文本处理模型包括融合层和分类层;将第二文本的文本向量和第一文本的文本向量输入融合层,在融合层对第二文本的文本向量和第一文本的文本向量进行融合,得到融合文本向量;将融合文本向量输入分类层,在分类层对融合文本向量进行分类,得到第一文本和第二文本之间的相关性度量结果。
其中,文本处理模型为用于进行文本处理的机器学习模型,本申请实施例中的文本处理指的是文本相关性度量,因此本申请实施例中文本处理模型可通过已进行文本相关性标注的训练文本对进行有监督的训练得到,其中的训练文本对通常为不同的两个文本。文本处理模型包括融合层和分类层,融合层为可进行向量融合的一层或多层神经网络,而分类层为用于对向量进行分类的一层或多层神经网络。
具体地,服务器在获取到已训练的文本处理模型后,将第二文本的文本向量和第一文本的文本向量输入融合层,通过融合层的神经网络,服务器对第二文本的文本向量和第一文本的文本向量进行融合,得到融合文本向量,进一步将融合文本向量输入分类层,通过分类层的神经网络对融合文本向量进行分类,最终得到分类结果可用于表征第二文本的文本向量和第一文本之间的相似性度量结果。例如,若最终分类结果为1,表示第一文本和第二文本相关,且预测为1的概率值表征了两个文本的相关程度,若最终分类结果为0,表示第一文本和第二文本不相关,且预测为0的概率值表征了两个文本的不相关程度。
在一些实施例中,文本处理模型相关性度量结果还包括池化层,池化层为用于对向量进行池化处理(pooling)的一层或者多层神经网络,池化处理可以是平均池化、最大池化等等,服务器在将融合文本向量输入分类层之前,可以先将融合文本向量输入池化层,通过池化层的神经网络对融合文本向量进行池化处理,将池化处理后的融合文本向量再输入到分类层进行分类,最终得到相关性度量结果。
在一些实施例中,如图5所示,在融合层对第二文本的文本向量和第一文本的文本向量进行融合,得到融合文本向量包括:
步骤502,分别获取第二分词集合中各个第二分词与第一分词之间的第一相似度;第二分词集合是对第二文本进行分词处理得到的第二分词组成的集合。
步骤504,根据各个第一相似度得到第一分词的注意力权重。
可以理解,服务器在获得第二文本的文本向量时,需要对第二文本进行分词处理,得到第二文本对应的至少一个第二分词,这些第二分词组成第二分词集合,那么服务器在对第二文本的文本向量和第一文本的文本向量时,可基于第一分词和第二分词之间的相似度进行基于注意力机制的融合。
具体地,对于第一文本对应的第一分词,服务器可以计算第二分词集合中各个第二分词与该第一分词之间的第一相似度,然后根据各个第一相似度得到第一分词的注意力权重,该注意力权重用于表征第二文本对第一文本中第一分词的注意力,可以理解,第二文本对第一文本中第一分词的注意力越大,则第二文本与第一分词的相关程度越高。需要说明的是,当第一文本对应多个第一分词时,对于每一个第一分词,服务器都需要计算其对应的注意力权重。
其中,服务器在计算第二分词与第一分词之间的第一相似度时,可以计算两者的向量点积、计算两者的向量Cosine相似性、通过引入神经网络来求值等等方式。
在一个具体的实施例中,服务器通过以下公式(5)计算第二分词与第一分词之间的第一相似度,并通过以下公式(6)进行归一化处理,其中,W为计算相似度的神经网络的模型参数,可以通过训练得到,
Figure BDA0002976977340000201
为相似度,
Figure BDA0002976977340000202
为第二分词的向量,该第二分词为第二文本集合中第i个文本中的第n个词语,
Figure BDA0002976977340000203
为第一分词的向量,第一分词为第一文本中第m个词语:
Figure BDA0002976977340000204
Figure BDA0002976977340000205
在一个具体的实施例,服务器可以计算各个相似度与各自对应的第二分词的映射词向量的乘积,将计算得到的乘积相加得到第一分词的注意力权重。举例说明,假设第一分词为a,第二分词集合为{b1,b2,b3},b1、b2、b3的映射词向量分别为h1、h2、h3,b1与a的相似度为w1,b2与a的相似度为w2,b3与a的相似度为w3,则第一分词a的注意力权重为h1*w1+h2*w2+h3*w3。
步骤506,根据注意力权重对第一文本的文本向量进行加权,以更新第一文本的文本向量。
具体地,本实施例中,第一文本的文本向量由第一分词对应的目标词向量按照第一分词在第一文本中的顺序组合得到,服务器将第一分词的注意力权重与第一文本的文本向量中该第一分词的向量进行相乘,得到更新后的第一文本的文本向量。需要说明的是,第一文本通常对应多个第一分词,各个第一分词对应不同的注意力权重,那么服务器需要将各个第一分词各自对应的注意力权重与第一文本的文本向量中各个第一分词的向量相乘,得到更新后的第一文本的文本向量,具体计算公式如下公式(7)所示,其中,
Figure BDA0002976977340000211
为更新后的第一文本的文本向量中第一分词对应的向量,M为注意力权重,hq为更新前的第一文本的文本向量中第一分词对应的向量:
Figure BDA0002976977340000212
步骤508,融合第二文本的文本向量与更新后的第一文本的文本向量,得到融合文本向量。
具体地,服务器对第二文本的文本向量与更新后的第一文本的文本向量进行融合处理,以得到融合文本向量。
在一个具体的实施例中,服务器可参照以下公式(8)对第二文本的文本向量与更新后的第一文本的文本向量进行向量间的组合计算,其中,
Figure BDA0002976977340000213
为融合文本向量中分词对应的向量,
Figure BDA0002976977340000214
为第二文本向量中分词对应的向量,
Figure BDA0002976977340000215
表征第二文本为第二文本集合中第i个文本:
Figure BDA0002976977340000216
在一些实施例中,在根据各个第一相似度得到第一分词的注意力权重之前,方法还包括:获取第一分词对应的同义词集合,并获取第二分词集合中各个第二分词对应的同义词集合;分别获取第一分词对应的同义词集合与各个第二分词对应的同义词集合之间的第二相似度;根据各个第一相似度得到第一分词的注意力权重包括:根据各个第一相似度及各个第二相似度得到第一分词的注意力权重。
具体地,服务器可以基于预先建立的同义词词典查找第一分词对应的同义词集合;或者基于预先建立的结构化知识库查找第一分词对应的同义词集合,将第一分词与预先建立的知识库中的词语进行匹配,将匹配成功的词语所在的语义集合确定为第一分词对应的同义词集合,预先建立的结构化知识库例如可以是wordNet知识库、ConcepNet知识库等等;或者,服务器还可以基于预先建立的半结构化知识库进行查找,例如,将同义词存储为表格中的同一列,并通过列名对列中元素进行抽象概括。基于同样的方法,服务器可以查找到第二分词集合中各个第二分词对应的同义词集合。
在获取到第一分词对应的同义词集合,以及第二分词集合中各个第二分词对应的同义词集合后,服务器计算第一分词对应的同义词集合与每一个第二分词对应的同义词集合之间的第二相似度。需要说明的是,当第一文本对应多个第一分词时,对于每一个第一分词,服务器都需要计算该第一分词的同义词集合与每一个第二分词对应的同义词集合之间的第二相似度。
在一个具体的实施例中,服务器基于wordnet知识库查找同义词集合,服务器在计算两个语义集合之间的相似度时,可采用Wu-palmer相似度,具体计算方式可参考以下公式(9),并通过以下公式(10)进行归一化,其中,
Figure BDA0002976977340000221
为计算得到的相似度,Nc表示第一分词对应的同义词与第二分词对应的同义词集合之间最小公共消费者的深度,
Figure BDA0002976977340000222
为第二分词对应的同义词集合的深度,
Figure BDA0002976977340000223
第一分词对应的同义词集合的深度,i表示第二文本为文本集合中的第i个文本,n表示第二分词为第二文本中的第n个词语,m表示第一分词为第一文本中的第m个词语:
Figure BDA0002976977340000224
Figure BDA0002976977340000225
在计算得到计算第一分词对应的同义词集合与各个第二分词对应的同义词集合之间的第二相似度后,服务器根据各个第一相似度及各个第二相似度得到第一分词的注意力权重,具体来说,服务器可以将对应于同一个第二分词的第一相似度和第二相似度相加,然后乘以该第二分词的映射词向量,得到该第二分词对应的注意力分量,最后将所有第二分词的注意力分量进行加和得到第一分词的注意力权重。举个例子,假设第一分词为a,第二分词集合为{b1,b2,b3},b1、b2、b3的映射词向量分别为h1、h2、h3,b1与a的相似度为w1,b2与a的相似度为w2,b3与a的相似度为w3,a对应的同义词集合与b1、b2、b3各自对应的同义词集合之间的相似度分别为s1、s2、s3,则第一分词a的注意力权重为h1*(w1+s1)+h2*(w2+s2)+h3*(w3+s3)。
上述实施例中,在计算注意力权重时,通过加入同义词集合之间的相似度,对注意力权重补充,融合得到的融合文本向量能够更加准确的表达第一文本和第二文本,从而进一步提高文本相似性度量的准确性。
在一些实施例中,如图6所示,在融合层对第二文本的文本向量和第一文本的文本向量进行融合,得到融合文本向量包括:
步骤602,分别获取第二分词集合中各个第二分词与第一分词之间的第一相似度;第二分词集合是对第二文本进行分词处理得到的第二分词组成的集合。
步骤604,获取第一分词对应的同义词集合,并获取第二分词集合中各个第二分词对应的同义词集合。
步骤606,分别获取第一分词对应的同义词集合与各个第二分词对应的同义词集合之间的第二相似度。
步骤608,获取第一分词对应的上下位语义集合,并获取第二分词集合中各个第二分词对应的上下位语义集合。
具体地,服务器可以基于预先建立的上下位词典查找第一分词对应的上下位语义集合;或者基于预先建立的结构化知识库查找第一分词对应的同义词集合,预先建立的结构化知识库中,语义集合之间通过关系边连接,那么服务器可以首先确定第一分词所在语义集合,然后根据关系边查找对应的上下位语义集合,预先建立的结构化知识库例如可以是wordNet知识库、ConcepNet知识库等等。基于同样的方法,服务器可以查找到第二分词集合中各个第二分词对应的同义词集合。
步骤610,分别获取第一分词对应的上下位语义集合与各个第二分词对应的上下位语义集合之间的第三相似度。
在获取到第一分词对应的同义词集合,以及第二分词集合中各个第二分词对应的同义词集合后,服务器计算第一分词对应的同义词集合与每一个第二分词对应的同义词集合之间的第二相似度。需要说明的是,当第一文本对应多个第一分词时,对于每一个第一分词,服务器都需要计算该第一分词的同义词集合与每一个第二分词对应的同义词集合之间的第二相似度。
在一个具体的实施例中,服务器基于wordnet知识库查找上下位语义集合,服务器在计算两个语义集合之间的相似度时,可采用Leacock-Chodorow相似度,具体计算方式可参考以下公式(11),并通过以下公式(12)进行归一化,其中,
Figure BDA0002976977340000241
为计算得到的相似度,L为本体图的最大深度,
Figure BDA0002976977340000242
表示第一分词对应的上下位集合与第二分词对应的上下位集合之间的最短路径长度:
Figure BDA0002976977340000243
Figure BDA0002976977340000244
步骤612,根据各个第一相似度、各个第二相似度及各个第三相似度得到第一分词的注意力权重。
在计算得到计算第一分词对应的上下位语义集合与各个第二分词对应的上下位语义集合之间的第三相似度后,服务器根据各个第一相似度、各个第二相似度及各个第三相似度得到第一分词的注意力权重,具体来说,服务器可以将对应于同一个第二分词的第一相似度、第二相似度及第三相似度相加,得到该第二分词的相似度和值,如下面的公式(13)所示,并通过公式(13)进行归一化:
Figure BDA0002976977340000245
Figure BDA0002976977340000246
如图7所示,为本实施例中,注意力机制的示意图,参考图7,本实施例中的注意力机制可以这样理解,将计算过程看成是基于一系列<Key,Value>数据对的计算,其中的key由三部分组成,keyh为第二文本中第二分词对应的映射词向量,
Figure BDA0002976977340000247
为第二分词对应的同义词集合,
Figure BDA0002976977340000248
为第二分词对应的上下位语义集合,将第一文本中的第一分词作为查询词Query,服务器计算Query和各个keyh的相似性或者相关性、Query所在的同义词集合与keyh所在同义词集合
Figure BDA0002976977340000251
之间的相似性或者相关性、Query所在的上下位语义集合与keyh所在上下位语义集合
Figure BDA0002976977340000252
之间的相似性或者相关性,将这三部分的值相加得到每个Key对应Value的权重系数,然后对Value进行加权求和,即得到了最终的注意力权重(Attentionvalue)。可以理解,本实施例中Value与对应的keyh相同,均为第二文本中第二分词对应的映射词向量。
举个例子,假设第一分词为a,第二分词集合为{b1,b2,b3},b1、b2、b3的映射词向量分别为h1、h2、h3,b1与a的相似度为w1,b2与a的相似度为w2,b3与a的相似度为w3,a对应的同义词集合与b1、b2、b3各自对应的同义词集合之间的相似度分别为s1、s2、s3,a对应的上下位语义集合与b1、b2、b3各自对应的上下位语义集合之间的相似度分别为y1、y2、y3,则第一分词a的注意力权重为h1*(w1+s1+y1)+h2*(w2+s2+y2)+h3*(w3+s3+y3)。
步骤614,根据注意力权重对第一文本的文本向量进行加权,以更新第一文本的文本向量。
步骤616,融合第二文本的文本向量与更新后的第一文本的文本向量,得到融合文本向量。
上述实施例中,基于同义关系和上下位关系强化注意力权重的计算,融合得到的融合文本向量能够更加准确的表达第一文本和第二文本,从而进一步提高文本相似性度量的准确性。
在一些实施例中,文本处理模型还包括表示层、池化层;文本处理模型的训练步骤包括:获取训练样本及对应的训练标签;训练样本包括第一训练文本及第二训练文本;分别对第一训练文本及第二训练文本进行分词处理,得到第一训练文本对应的第一训练分词以及第二训练文本对应的第二训练分词;将第一训练分词及第二训练分词输入表示层,在表示层,获取第一训练分词对应的映射词向量、关联词向量,并且获取第二训练分词对应的映射词向量、关联词向量;在表示层,融合第一训练分词对应的映射词向量及关联词向量,得到第一训练文本对应的第一目标词向量,并且分别融合第二训练分词对应的映射词向量及关联词向量,得到第二训练文本对应的第二目标词向量;将第一目标词向量及第二目标词向量输入编码层,通过编码层对第一目标词向量进行编码以获得第一训练文本向量,并且通过编码层对第二目标词向量进行编码以获得第二训练文本向量;将第一训练文本向量及第二训练文本向量输入融合层,在融合层,融合第一训练文本向量及第二训练文本向量,得到融合训练文本向量;将融合训练文本向量输入池化层,在池化层,对融合训练文本向量进行平均池化处理,将平均池化处理后的融合训练文本向量输入分类层,得到分类概率;基于分类概率与训练标签的差异调整文本处理模型的参数,当满足训练停止条件时,得到已训练的文本处理模型。
其中,第一训练文本及第二训练文本可以为相同的两个文本,也可以为不相同的两个文本,第一训练文本及第二训练文本可以为相关的两个文本,此时,第一训练文本及第二训练文本为正训练样本,对应的训练标签中包括表征相关程度的概率,第一训练文本及第二训练文本也可以为完全不相关的两个文本,此时,第一训练文本及第二训练文本为负训练样本,对应的训练标签中包括表征不相关程度的概率。
在一个具体的实施例中,服务器可以基于wordNet知识库得到第一训练分词对应的关联词向量,以及第二训练分词对应的关联词向量。其中的关联词向量可以包括基于同义词集合得到的关联词向量、基于上下位语义集合得到的关联词向量中的至少一种。相较于相关技术中需要借助大规模标注语料训练相关神经网络,且模型学习周期相对较长,模型收敛速度较慢,在有限小规模数据上很难学到一个好的模型,本实施例中由于WordNet中的知识为人工构建,融合WordNet中的模型可在有限小规模标注训练进行有效学习,且模型收敛速度较快。
需要说明的是,本实施例中,在进行训练时,损失函数的类型可以采用常见的损失函数,例如,交叉熵损失函数(Cross-entropy loss function)、绝对值损失函数、log对数损失函数、指数损失函数等等。
在一个具体的实施例中,如图7A所示,为本申请实施例提供的文本处理模型的结构图,参考图7A,该文本处理模型自下而上依次包括表示层、编码层、融合层、池化层、分类层,对第一文本进行分词处理得到的第一分词包括姚明、NBA、……、退役,对第二文本进行分词处理得到的第二分词包括姚明、季后赛、篮球、……、CBA,将第一分词和第二分词输入表示层,在表示层,对第一分词进行词向量映射得到对应的映射词向量分别为
Figure BDA0002976977340000271
对第二分词进行词向量映射得到对应的映射词向量分别为
Figure BDA0002976977340000272
并基于wordNet知识库分别获取第一分词、第二分词的同义词集合,同时基于wordNet知识库中的关系边找到第一分词、第二分词的上下位语义集合,对同义词集合中的词语进行词向量映射,得到第一分词对应的同义词平均向量为
Figure BDA0002976977340000273
第二分词对应的同义词平均向量为
Figure BDA0002976977340000274
对上下位集合中的词语进行词向量映射,得到第一分词对应的上下位平均向量为
Figure BDA0002976977340000275
第二分词对应的上下位平均向量为
Figure BDA0002976977340000276
进一步,服务器拼接第一分词的映射词向量、同义词平均向量和上下位平均向量得到第一分词对应的目标词向量分别为
Figure BDA0002976977340000277
服务器拼接第二分词的映射词向量、同义词平均向量和上下位平均向量得到第二分词对应的目标词向量分别为
Figure BDA0002976977340000278
其中,服务器分别参照以下公式(15)和公式(16)对同义词集合和上下位语义集合取平均得到同义词平均向量和上下位平均向量,其中,ksj为同义词平均向量,khj为上下位平均向量,S为同义词集合中的词语数量,H为上下位语义集合中的词语数量,
Figure BDA0002976977340000279
为同义词集合中词语的映射词向量,
Figure BDA00029769773400002710
为上下位语义集合中词语的映射词向量:
Figure BDA00029769773400002711
Figure BDA00029769773400002712
其中,服务器参照以下公式(17)拼接分词对应的映射词向量、同义词平均向量、上下位平均向量得到分词的目标词向量,其中,kj为目标词向量,wj为分词的映射词向量:
kj=[wj;ksj;khj] (17)
继续参考图7A,将第一分词及第二分词的目标词向量输入编码层,在编码层分别对第一分词及第二分词的目标词向量进行前向编码和后向编码,得到第一分词及第二分词的融合向量,将第一分词的融合向量按顺序进行组合得到第一文本对应的文本向量,将第二分词的融合向量按顺序进行组合得到第二文本对应的文本向量。
继续参考图7A,将第一文本对应的文本向量和第二文本对应的文本向量输入融合层,基于注意力机制融合第一文本对应的文本向量和第二文本对应的文本向量得到融合文本向量,融合文本向量中的词向量为
Figure BDA0002976977340000281
其中的注意力机制包括三部分,分别是基于第一分词和第二分词之间的相似度的注意力
Figure BDA0002976977340000282
基于第一分词的同义词集合和第二分词的同义词集合之间的相似度的注意力
Figure BDA0002976977340000283
以及基于第一分词的上下位语义集合和第二分词的上下位语义集合之间的相似度的注意力
Figure BDA0002976977340000284
具体参考上文实施例中的描述,本申请在此不赘述。
继续参考图7A,将融合文本向量输入池化层,在池化层对融合文本向量进行平均池化,将池化得到的融合文本向量
Figure BDA0002976977340000285
输入分类层,在分类层,通过softmax函数进行二分类,最终得到的分类结果为0和1,若分类结果预测为1,则表示第一文本和第二文本相关,且预测为1的概率表示第一文本和第二文本之间的相关程度;若分类结果预测为0,则表示第一文本和第二文本不相关,且预测为0的概率表示第一文本和第二文本之间的不相关程度。
在一些实施例中,如图8所示,提供了一种文本处理方法,可以理解,文本处理方法可以由终端或服务器单独执行,也可以由终端和服务器协同执行。在本实施例中,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤802,获取搜索文本及候选视频集合中候选视频对应的标题文本。
其中,搜索文本可以是用户实时输入的搜索文本,也可以是用户历史输入的搜索文本。候选视频集合可以是服务器存储的视频或者服务器从第三方获取的视频,服务器可以获取到的所有视频都可以作为候选视频,候选视频组成候选视频集合。候选视频的标题文本通常用于对视频的内容进行简单描述,例如某个与延迟退休相关的视频,其标题为“延迟退休呼之欲出,为何要延迟退休?”。
步骤804,对搜索文本进行分词处理,获得搜索文本对应的第一分词。
步骤806,确定第一分词对应的关联词集合,基于第一分词对应的关联词集合得到第一分词对应的关联词向量。
步骤808,获取第一分词对应的映射词向量,拼接第一分词对应的映射词向量和关联词向量,得到第一分词对应的目标词向量。
步骤810,基于目标词向量确定搜索文本的文本向量。
步骤812,基于标题文本的文本向量和搜索文本的文本向量确定标题文本和搜索文本之间的相关性度量结果。
其中,相关性度量结果可以是相关性得分或者相关性概率。
步骤814,基于相关性度量结果对候选视频集合中的候选视频进行排序,根据得到的排序结果确定搜索文本对应的目标展示视频。
其中,目标展示视频为用于展示给用户的目标视频。
在一些实施例中,服务器可以根据相关性度量结果对候选视频集合中的候选视频进行排序进行升序排列,即将相关性度量结果对应的表征值大的排列在前,将相关性度量结果对应的表征值小的排列在后,排序完成后,将排序靠前的预设数量的候选视频确定为搜索文本对应的目标展示视频。
在另一些实施例中,服务器可以根据相关性度量结果对候选视频集合中的候选视频进行排序进行降序排列,即将相关性度量结果对应的表征值小的排列在前,即将相关性度量结果对应的表征值大的排列在后,排序完成后,将排序靠后的预设数量的候选视频确定为搜索文本对应的目标展示视频。
上述文本处理方法,通过获取搜索文本及候选视频集合中候选视频对应的标题文本,对搜索文本进行分词处理,获得搜索文本对应的第一分词,确定第一分词对应的关联词集合,基于第一分词对应的关联词集合得到第一分词对应的关联词向量,获取第一分词对应的映射词向量,拼接第一分词对应的映射词向量和关联词向量,得到第一分词对应的目标词向量,基于目标词向量确定搜索文本的文本向量,基于标题文本的文本向量和搜索文本的文本向量确定标题文本和搜索文本之间的相关性度量结果,基于相关性度量结果对候选视频集合中的候选视频进行排序,根据得到的排序结果确定搜索文本对应的目标展示视频,由于获取了第一分词的关联词向量并与映射词向量进行拼接得到第一分词的目标词向量,根据目标向量来确定第一文本的文本向量,考虑了文本的关联特征,丰富了文本向量的表达,相较于相关技术中只考虑两个文本之间的共现特征,本申请得到的相关性度量结果更加准确,根据相关性度量结果对候选视频进行排序后确定目标展示视频,可以提升展示视频的内容质量,降低无关视频内容对用户观看兴趣的干扰。
在一些实施例中,服务器在确定了目标展示视频后,将目标展示视频发送至终端,终端对目标展示视频进行展示。
在一些实施例中,服务器在得到标题文本和搜索文本之间的相关性度量结果的同时,还可以根据终端对应的用户标识获取对应的用户画像标签,计算用户画像标签和标题文本之间的相关性(以下简称画像相关性),最后结合用户画像标签和标题文本之间的相关性和前述相关性度量结果来对候选视频集合中的候选视频进行排序。例如,可以将画像相关性小于预设阈值的候选文本过滤掉,然后基于相关性度量结果对候选视频集合中剩余的候选视频进行排序;再比如,还可以同一个候选视频对应的将画像相关性和相关性度量结果加权求和,根据求和结果进行排序。
在一些实施例中,在基于标题文本的文本向量和搜索文本的文本向量确定标题文本和搜索文本之间的相关性度量结果之前,方法还包括:对标题文本进行分词处理,获得标题文本对应的第二分词;确定第二分词对应的关联词集合,基于第二分词对应的关联词集合得到第二分词对应的关联词向量;获取第二分词对应的映射词向量,拼接第二分词对应的映射词向量和关联词向量,得到第二分词对应的目标词向量;基于第二分词对应的目标词向量确定标题文本的文本向量。
可以理解,上述实施例中的相关描述及解释可参见前文实施例中的描述,本申请在此不赘述。
本申请还提供一种应用场景,该应用场景可适用于上述的文本处理方法,在该应用场景中,终端安装有视频类应用程序,用户在该视频类应用程序登录后,在应用程序的搜索输入框实时输入搜索文本,服务器基于用户输入的实时搜索文本进行视频搜索。具体地,该文本处理方法在该应用场景的应用如下:
1、终端在获取到用户输入的实时搜索文本后,生成携带该搜索文本的搜索请求并发送至服务器,服务器解析该搜索请求获取其中携带的搜索文本,并且依次从候选视频集合中获取各个候选视频的标题文本。
2、服务器对搜索文本进行分词处理,得到搜索文本对应的第一分词,并且对标题文本进行分词处理,得到搜索文本对应的第二分词。
可以理解,在一些具体的实施例中,由于服务器需要将搜索文本与候选视频文本中的各个候选视频的标题文本进行相似度度量,那么服务器在对对搜索文本进行分词处理后,可以保存对应的第一分词,从而避免对第一文本进行重复分词,提高搜索效率。
还可以理解,在另一些具体的实施例中,在服务器存储空间足够的情况下,服务器可以预先对视频集合中候选视频的视频标题进行分词,并与视频标识对应保存,这种服务器在进行搜索时,可以直接基于视频标识查找对应的第二分词,节省分词时间,进一步提高搜索效率。
3、服务器将第一分词与第二分词输入到已训练的文本处理模型后,基于文本处理模型得到搜索文本和标题文本之间的相关性概率,根据相关性概率对候选视频集合中的候选视频进行排序。其中,文本处理模型的结构如图7所示。
具体地,服务器将第一分词和第二分词输入表示层,在表示层,对第一分词、第二分词进行词向量映射得到对应的映射词向量,并基于wordNet知识库分别获取第一分词、第二分词的同义词集合,同时基于wordNet知识库中的关系边找到第一分词、第二分词的上下位语义集合,对同义词集合和上下位集合中的词语进行词向量映射,对同义词集合和上下位语义集合取平均分别得到第一分词、第二分词的同义词平均向量和上下位平均向量,拼接第一分词及对应的同义词平均向量、上下位平均向量得到第一分词的目标词向量,拼接第二分词及对应的同义词平均向量、上下位平均向量得到第二分词的目标词向量,将第一分词及第二分词的目标词向量输入编码层,在编码层分别对第一分词及第二分词的目标词向量进行前向编码和后向编码,得到第一分词及第二分词的融合向量,将第一分词的融合向量按顺序进行组合得到搜索文本对应的文本向量,将第二分词的融合向量按顺序进行组合得到标题文本对应的文本向量。
服务器进一步将搜索文本对应的文本向量和标题文本对应的文本向量输入融合层,基于注意力机制融合搜索文本对应的文本向量和标题文本对应的文本向量得到融合文本向量,其中的注意力机制包括三部分,分别是基于第一分词和第二分词之间的相似度的注意力、基于第一分词的同义词集合和第二分词的同义词集合之间的相似度的注意力以及基于第一分词的上下位语义集合和第二分词的上下位语义集合之间的相似度,注意力机制参考前文实施例中的描述,本申请在此不赘述。
服务器进一步将融合文本向量输入池化层,在池化层对融合文本向量进行平均池化,将池化得到的融合文本向量输入分类层,在分类层,通过softmax函数进行二分类,最终得到的分类结果为0和1,若分类结果预测为1,则表示搜索文本和标题文本相关,且预测为1的概率表示搜索文本和标题文本之间的相关程度;若分类结果预测为0,则表示搜索文本和标题文本不相关,且预测为0的概率表示搜索文本和标题文本之间的不相关程度,对于分类结果为1的标题文本,将对应的候选视频按照预测为1的概率进行排序。
4、服务器根据排序结果确定搜索文本对应的目标展示视频,将目标展示视频发送至终端,终端对目标展示视频按照排序时的顺序进行展示。
本申请还提供另一种应用场景,该应用场景可适用于上述的文本处理方法,在该应用场景中,终端安装有视频类应用程序,用户在该视频类应用程序登录后,服务器基于用户的历史浏览视频对应的标题文本对该用户进行视频推荐。具体地,该文本处理方法在该应用场景的应用如下:
1、终端在获取到用户输入的用户名和密码后,生成登录请求并发送至服务器,服务器解析该登录请求,在验证用户名和密码正确后,根据用户名查询用户的历史浏览日志,根据历史浏览日志确定用户的历史浏览视频,获取历史浏览视频对应的标题文本(以下简称历史标题文本),例如,获取用户最近一次浏览的视频对应的标题文本,并且依次从候选视频集合中获取各个候选视频的标题文本(以下简称候选标题文本)。
2、服务器对历史标题文本进行分词处理,得到历史标题文本对应的第一分词,并且对候选标题文本进行分词处理,得到候选标题文本对应的第二分词。
3、服务器将第一分词与第二分词输入到已训练的文本处理模型后,基于文本处理模型得到历史标题文本和候选标题文本之间的相关性概率,根据相关性概率对候选视频集合中的候选视频进行排序。其中,文本处理模型的结构如图7所示。
4、服务器根据排序结果确定该历史搜索文本对应的目标展示视频,将目标展示视频推荐至终端,终端对目标展示视频按照排序时的顺序进行展示。
本申请还另外提供一种应用场景,该应用场景可适用于上述的文本处理方法,在该应用场景中,终端安装有视频类应用程序,用户在视频类应用程序内浏览视频时,终端通过确定视频的标题文本与该视频的评论文本之间的相关性对评论文本进行展示。具体地,终端获取用户浏览视频的标题文本,并获取评论文本集合中各个评论文本,对标题文本和评论文本进行分词,分别将标题文本与评论文本进行分词处理,得到标题文本对应的第一分词以及评论文本对应的第二分词,服务器将第一分词与第二分词输入到模型结构如图7所示的已训练的文本处理模型后,基于文本处理模型得到标题文本和评论文本之间的相关性概率,根据相关性概率对评论文本集合中的评论文本进行排序,服务器根据排序结果对评论文本集合中的评论文本按顺序展示,使得相关性高的评论文本能够在优先展示。
应该理解的是,虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一些实施例中,如图9所示,提供了一种文本处理装置900,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
文本获取模块902,用于获取第一文本和第二文本;
分词处理模块904,用于对第一文本进行分词处理,获得第一文本对应的第一分词;
关联词向量确定模块906,用于确定第一分词对应的关联词集合,基于关联词集合得到第一分词对应的关联词向量;
目标词向量确定模块908,用于获取第一分词对应的映射词向量,拼接第一分词对应的映射词向量和关联词向量,得到第一分词对应的目标词向量;
文本向量确定模块910,用于基于目标词向量确定第一文本的文本向量;
度量结果确定模块912,用于基于第二文本的文本向量和第一文本的文本向量确定第一文本和第二文本之间的相关性度量结果。
上述文本处理装置,在获取到第一文本和第二文本后,对第一文本进行分词处理,获得第一文本对应的第一分词,确定第一分词对应的关联词集合,基于关联词集合得到第一分词对应的关联词向量,获取第一分词对应的映射词向量,拼接第一分词对应的映射词向量和关联词向量,得到第一分词对应的目标词向量,基于目标词向量确定第一文本的文本向量,最后基于第二文本的文本向量和第一文本的文本向量确定第一文本和第二文本之间的相关性度量结果,由于获取了第一分词的关联词向量并与映射词向量进行拼接得到第一分词的目标词向量,根据目标向量来确定第一文本的文本向量,考虑了文本的关联特征,丰富了文本向量的表达,相较于相关技术中只考虑两个文本之间的共现特征,本申请得到的相关性度量结果更加准确。
在一些实施例中,关联词集合包括同义词集合;关联词向量确定模块还用于将第一分词分别与预先建立的知识库中的词语进行匹配,将匹配成功的词语所在的语义集合确定为第一分词对应的同义词集合;语义集合是由相同语义的词语组成的;获取第一分词对应的同义词集合中多个同义词的映射词向量,基于同义词集合对应的多个映射词向量得到同义词集合的同义词平均向量;基于第一分词对应的同义词平均向量确定第一分词的关联词向量。
在一些实施例中,知识库中的语义集合之间是通过关系边进行连接的;关联词集合还包括上下位语义集合;关联词向量确定模块还用于从预先建立的知识库中查找与第一分词对应的同义词集合通过关系边连接的语义集合,得到第一分词对应的上下位语义集合;获取第一分词对应的上下位语义集合中多个上下位词的映射词向量,基于上下位语义集合对应的多个映射词向量得到上下位语义集合的上下位平均向量;融合第一分词对应的同义词平均向量与上下位平均向量,得到第一分词的关联词向量。
在一些实施例中,第一分词包括多个,各个第一分词对应不同的目标词向量;文本向量确定模块,还用于对各个目标词向量按照对应的第一分词在第一文本中的先后顺序进行前向编码,得到各个目标词向量的前向编码向量;对各个目标词向量按照对应的第一分词在第一文本中的先后顺序进行后向编码,得到各个目标词向量的后向编码向量;融合各个目标词向量的前向编码向量与后向编码向量,得到各个目标词向量对应的融合向量;
根据各个融合向量得到第一文本对应的文本向量。
在一些实施例中,文本向量确定模块,还用于对第二文本进行分词处理,获得第二文本对应的第二分词;确定第二分词对应的关联词集合,基于第二分词对应的关联词集合得到第二分词对应的关联词向量;获取第二分词对应的映射词向量,拼接第二分词对应的映射词向量和关联词向量,得到第二文本对应的目标词向量;基于第二文本对应的目标词向量确定第二文本的文本向量。
在一些实施例中,度量结果确定模块,还用于获取已训练的文本处理模型;文本处理模型包括融合层和分类层;将第二文本的文本向量和第一文本的文本向量输入融合层,在融合层对第二文本的文本向量和第一文本的文本向量进行融合,得到融合文本向量;将融合文本向量输入分类层,在分类层对融合文本向量进行分类,得到第一文本和第二文本之间的相关性度量结果。
在一些实施例中,度量结果确定模块,还用于分别获取第二分词集合中各个第二分词与第一分词之间的第一相似度;第二分词集合是对第二文本进行分词处理得到的第二分词组成的集合;根据各个第一相似度得到第一分词的注意力权重;根据注意力权重对第一文本的文本向量进行加权,以更新第一文本的文本向量;融合第二文本的文本向量与更新后的第一文本的文本向量,得到融合文本向量。
在一些实施例中,度量结果确定模块,还用于获取第一分词对应的同义词集合,并获取第二分词集合中各个第二分词对应的同义词集合;分别获取第一分词对应的同义词集合与各个第二分词对应的同义词集合之间的第二相似度;根据各个第一相似度及各个第二相似度得到第一分词的注意力权重。
在一些实施例中,度量结果确定模块,还用于获取第一分词对应的上下位语义集合,并获取第二分词集合中各个第二分词对应的上下位语义集合;分别获取第一分词对应的上下位语义集合与各个第二分词对应的上下位语义集合之间的第三相似度;根据各个第一相似度、各个第二相似度及各个第三相似度得到第一分词的注意力权重。
在一些实施例中,文本处理模型还包括表示层、池化层;上述装置还包括训练模块,用于获取训练样本及对应的训练标签;训练样本包括第一训练文本及第二训练文本;分别对第一训练文本及第二训练文本进行分词处理,得到第一训练文本对应的第一训练分词以及第二训练文本对应的第二训练分词;将第一训练分词及第二训练分词输入表示层,在表示层,获取第一训练分词对应的映射词向量、关联词向量,并且获取第二训练分词对应的映射词向量、关联词向量;在表示层,融合第一训练分词对应的映射词向量及关联词向量,得到第一训练文本对应的第一目标词向量,并且分别融合第二训练分词对应的映射词向量及关联词向量,得到第二训练文本对应的第二目标词向量;将第一目标词向量及第二目标词向量输入编码层,通过编码层对第一目标词向量进行编码以获得第一训练文本向量,并且通过编码层对第二目标词向量进行编码以获得第二训练文本向量;将第一训练文本向量及第二训练文本向量输入融合层,在融合层,融合第一训练文本向量及第二训练文本向量,得到融合训练文本向量;将融合训练文本向量输入池化层,在池化层,对融合训练文本向量进行平均池化处理,将平均池化处理后的融合训练文本向量输入分类层,得到分类概率;基于分类概率与训练标签的差异调整文本处理模型的参数,当满足训练停止条件时,得到已训练的文本处理模型。
关于文本处理装置的具体限定可以参见上文中对于文本处理方法的限定,在此不再赘述。上述文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,如图10所示,提供了一种文本处理装置1000,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:
文本获取模块1002,用于获取搜索文本及候选视频集合中候选视频对应的标题文本;
分词处理模块1004,用于对搜索文本进行分词处理,获得搜索文本对应的第一分词;
关联词向量确定模块1006,用于确定第一分词对应的关联词集合,基于第一分词对应的关联词集合得到第一分词对应的关联词向量;
目标词向量获得模块1008,用于获取第一分词对应的映射词向量,拼接第一分词对应的映射词向量和关联词向量,得到第一分词对应的目标词向量;
文本向量确定模块1010,用于基于目标词向量确定搜索文本的文本向量;
度量结果确定模块1012,用于基于标题文本的文本向量和搜索文本的文本向量确定标题文本和搜索文本之间的相关性度量结果;
排序模块1014,用于基于相关性度量结果对候选视频集合中的候选视频进行排序,根据得到的排序结果确定搜索文本对应的目标展示视频。
上述文本处理装置,通过获取搜索文本及候选视频集合中候选视频对应的标题文本,对搜索文本进行分词处理,获得搜索文本对应的第一分词,确定第一分词对应的关联词集合,基于第一分词对应的关联词集合得到第一分词对应的关联词向量,获取第一分词对应的映射词向量,拼接第一分词对应的映射词向量和关联词向量,得到第一分词对应的目标词向量,基于目标词向量确定搜索文本的文本向量,基于标题文本的文本向量和搜索文本的文本向量确定标题文本和搜索文本之间的相关性度量结果,基于相关性度量结果对候选视频集合中的候选视频进行排序,根据得到的排序结果确定搜索文本对应的目标展示视频,由于获取了第一分词的关联词向量并与映射词向量进行拼接得到第一分词的目标词向量,根据目标向量来确定第一文本的文本向量,考虑了文本的关联特征,丰富了文本向量的表达,相较于相关技术中只考虑两个文本之间的共现特征,本申请得到的相关性度量结果更加准确,根据相关性度量结果对候选视频进行排序后确定目标展示视频,可以提升展示视频的内容质量,降低无关视频内容对用户观看兴趣的干扰。
在一些实施例中,文本向量确定模块,还用于对标题文本进行分词处理,获得标题文本对应的第二分词;确定第二分词对应的关联词集合,基于第二分词对应的关联词集合得到第二分词对应的关联词向量;获取第二分词对应的映射词向量,拼接第二分词对应的映射词向量和关联词向量,得到第二分词对应的目标词向量;基于第二分词对应的目标词向量确定标题文本的文本向量。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11、图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,如本申请实施例公开的文本处理方法,其中,知识库、第二文本集合、训练文本等数据可以保存于区块链上。
在一些实施例中,如本申请实施例公开的文本处理方法,或者文本处理装置,其中,多个服务器可组成一区块链,而本申请的服务器为区块链上的节点。
在一些实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种文本处理方法,其特征在于,所述方法包括:
获取第一文本和第二文本;
对所述第一文本进行分词处理,获得所述第一文本对应的第一分词;
确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量;
获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
基于所述目标词向量确定所述第一文本的文本向量;
基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果。
2.根据权利要求1所述的方法,其特征在于,所述关联词集合包括同义词集合;所述确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量包括:
将所述第一分词分别与预先建立的知识库中的词语进行匹配,将匹配成功的词语所在的语义集合确定为所述第一分词对应的同义词集合;所述语义集合是由相同语义的词语组成的;
获取所述第一分词对应的同义词集合中多个同义词的映射词向量,基于所述同义词集合对应的多个映射词向量得到所述同义词集合的同义词平均向量;
基于所述第一分词对应的同义词平均向量确定所述第一分词的关联词向量。
3.根据权利要求2所述的方法,其特征在于,所述知识库中的语义集合之间是通过关系边进行连接的;所述关联词集合还包括上下位语义集合;在所述将所述第一分词分别与预先建立的知识库中的词语进行匹配,将匹配成功的词语所在的语义集合确定为所述第一分词对应的同义词集合之后,所述方法还包括:
从预先建立的知识库中查找与所述第一分词对应的同义词集合通过关系边连接的语义集合,得到所述第一分词对应的上下位语义集合;
获取所述第一分词对应的上下位语义集合中多个上下位词的映射词向量,基于所述上下位语义集合对应的多个映射词向量得到所述上下位语义集合的上下位平均向量;
所述基于所述第一分词对应的同义词平均向量确定所述第一分词的关联词向量包括:
融合所述第一分词对应的同义词平均向量与上下位平均向量,得到所述第一分词的关联词向量。
4.根据权利要求1所述的方法,其特征在于,所述第一分词包括多个,各个第一分词对应不同的目标词向量;所述基于所述目标词向量确定所述第一文本的文本向量包括:
对各个所述目标词向量按照对应的第一分词在第一文本中的先后顺序进行前向编码,得到各个所述目标词向量的前向编码向量;
对各个所述目标词向量按照对应的第一分词在第一文本中的先后顺序进行后向编码,得到各个所述目标词向量的后向编码向量;
融合各个所述目标词向量的前向编码向量与后向编码向量,得到各个所述目标词向量对应的融合向量;
根据各个所述融合向量得到所述第一文本对应的文本向量。
5.根据权利要求1所述的方法,其特征在于,在所述基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果之前,所述方法还包括:
对所述第二文本进行分词处理,获得所述第二文本对应的第二分词;
确定所述第二分词对应的关联词集合,基于所述第二分词对应的关联词集合得到所述第二分词对应的关联词向量;
获取所述第二分词对应的映射词向量,拼接所述第二分词对应的映射词向量和关联词向量,得到所述第二文本对应的目标词向量;
基于所述第二文本对应的目标词向量确定所述第二文本的文本向量。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果包括:
获取已训练的文本处理模型;所述文本处理模型包括融合层和分类层;
将所述第二文本的文本向量和所述第一文本的文本向量输入所述融合层,在所述融合层对所述第二文本的文本向量和所述第一文本的文本向量进行融合,得到融合文本向量;
将所述融合文本向量输入所述分类层,在所述分类层对所述融合文本向量进行分类,得到第一文本和所述第二文本之间的相关性度量结果。
7.根据权利要求6所述的方法,其特征在于,所述在所述融合层对所述第二文本的文本向量和所述第一文本的文本向量进行融合,得到融合文本向量包括:
分别获取第二分词集合中各个第二分词与所述第一分词之间的第一相似度;所述第二分词集合是对所述第二文本进行分词处理得到的第二分词组成的集合;
根据各个第一相似度得到所述第一分词的注意力权重;
根据所述注意力权重对所述第一文本的文本向量进行加权,以更新所述第一文本的文本向量;
融合所述第二文本的文本向量与更新后的第一文本的文本向量,得到融合文本向量。
8.根据权利要求7所述的方法,其特征在于,在所述根据各个第一相似度得到所述第一分词的注意力权重之前,所述方法还包括:
获取所述第一分词对应的同义词集合,并获取所述第二分词集合中各个第二分词对应的同义词集合;
分别获取所述第一分词对应的同义词集合与各个第二分词对应的同义词集合之间的第二相似度;
所述根据各个第一相似度得到所述第一分词的注意力权重包括:
根据各个第一相似度及各个第二相似度得到所述第一分词的注意力权重。
9.根据权利要求8所述的方法,其特征在于,在所述根据各个第一相似度及各个第二相似度得到所述第一分词的注意力权重之前,所述方法还包括:
获取所述第一分词对应的上下位语义集合,并获取所述第二分词集合中各个第二分词对应的上下位语义集合;
分别获取所述第一分词对应的上下位语义集合与各个第二分词对应的上下位语义集合之间的第三相似度;
所述根据各个第一相似度及各个第二相似度得到所述第一分词的注意力权重包括:
根据各个第一相似度、各个第二相似度及各个第三相似度得到所述第一分词的注意力权重。
10.根据权利要求6所述的方法,其特征在于,所述文本处理模型还包括表示层、编码层和池化层;所述文本处理模型的训练步骤包括:
获取训练样本及对应的训练标签;所述训练样本包括第一训练文本及第二训练文本;
分别对所述第一训练文本及第二训练文本进行分词处理,得到所述第一训练文本对应的第一训练分词以及第二训练文本对应的第二训练分词;
将所述第一训练分词及所述第二训练分词输入表示层,在所述表示层,获取所述第一训练分词对应的映射词向量、关联词向量,并且获取所述第二训练分词对应的映射词向量、关联词向量;
在所述表示层,融合所述第一训练分词对应的映射词向量及关联词向量,得到所述第一训练文本对应的第一目标词向量,并且分别融合所述第二训练分词对应的映射词向量及关联词向量,得到所述第二训练文本对应的第二目标词向量;
将所述第一目标词向量及所述第二目标词向量输入编码层,通过所述编码层对第一目标词向量进行编码以获得第一训练文本向量,并且通过所述编码层对第二目标词向量进行编码以获得第二训练文本向量;
将所述第一训练文本向量及所述第二训练文本向量输入融合层,在所述融合层,融合所述第一训练文本向量及所述第二训练文本向量,得到融合训练文本向量;
将所述融合训练文本向量输入所述池化层,在所述池化层,对所述融合训练文本向量进行平均池化处理,将平均池化处理后的融合训练文本向量输入分类层,得到分类概率;
基于所述分类概率与所述训练标签的差异调整所述文本处理模型的参数,当满足训练停止条件时,得到已训练的文本处理模型。
11.一种文本处理方法,其特征在于,所述方法包括:
获取搜索文本及候选视频集合中候选视频对应的标题文本;
对所述搜索文本进行分词处理,获得所述搜索文本对应的第一分词;
确定所述第一分词对应的关联词集合,基于所述第一分词对应的关联词集合得到所述第一分词对应的关联词向量;
获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
基于所述目标词向量确定所述搜索文本的文本向量;
基于所述标题文本的文本向量和所述搜索文本的文本向量确定所述标题文本和所述搜索文本之间的相关性度量结果;
基于所述相关性度量结果对所述候选视频集合中的候选视频进行排序,根据得到的排序结果确定所述搜索文本对应的目标展示视频。
12.一种文本处理装置,其特征在于,所述装置包括:
文本获取模块,用于获取第一文本和第二文本;
分词处理模块,用于对所述第一文本进行分词处理,获得所述第一文本对应的第一分词;
关联词向量确定模块,用于确定所述第一分词对应的关联词集合,基于所述关联词集合得到所述第一分词对应的关联词向量;
目标词向量确定模块,用于获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
文本向量确定模块,用于基于所述目标词向量确定所述第一文本的文本向量;
度量结果确定模块,用于基于所述第二文本的文本向量和所述第一文本的文本向量确定所述第一文本和所述第二文本之间的相关性度量结果。
13.一种文本处理装置,其特征在于,所述装置包括:
文本获取模块,用于获取搜索文本及候选视频集合中候选视频对应的标题文本;
分词处理模块,用于对所述搜索文本进行分词处理,获得所述搜索文本对应的第一分词;
关联词向量确定模块,用于确定所述第一分词对应的关联词集合,基于所述第一分词对应的关联词集合得到所述第一分词对应的关联词向量;
目标词向量获得模块,用于获取所述第一分词对应的映射词向量,拼接所述第一分词对应的映射词向量和关联词向量,得到所述第一分词对应的目标词向量;
文本向量确定模块,用于基于所述目标词向量确定所述搜索文本的文本向量;
文本向量确定模块,用于基于所述标题文本的文本向量和所述搜索文本的文本向量确定所述标题文本和所述搜索文本之间的相关性度量结果;
排序模块,用于基于所述相关性度量结果对所述候选视频集合中的候选视频进行排序,根据得到的排序结果确定所述搜索文本对应的目标展示视频。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202110276795.9A 2021-03-15 2021-03-15 文本处理方法、装置、计算机设备和存储介质 Active CN113011172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110276795.9A CN113011172B (zh) 2021-03-15 2021-03-15 文本处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110276795.9A CN113011172B (zh) 2021-03-15 2021-03-15 文本处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113011172A true CN113011172A (zh) 2021-06-22
CN113011172B CN113011172B (zh) 2023-08-22

Family

ID=76407345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110276795.9A Active CN113011172B (zh) 2021-03-15 2021-03-15 文本处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113011172B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988045A (zh) * 2021-12-28 2022-01-28 浙江口碑网络技术有限公司 文本相似度确定方法、文本处理方法、相应的装置和设备
CN114357989A (zh) * 2022-01-10 2022-04-15 北京百度网讯科技有限公司 视频标题生成方法、装置、电子设备及存储介质
CN114398968A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN110348007A (zh) * 2019-06-14 2019-10-18 北京奇艺世纪科技有限公司 一种文本相似度确定方法及装置
CN110516040A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质
CN110704621A (zh) * 2019-09-25 2020-01-17 北京大米科技有限公司 文本处理方法、装置及存储介质和电子设备
CN110941951A (zh) * 2019-10-15 2020-03-31 平安科技(深圳)有限公司 文本相似度计算方法、装置、介质及电子设备
CN112084331A (zh) * 2020-08-27 2020-12-15 清华大学 文本处理、模型训练方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN110348007A (zh) * 2019-06-14 2019-10-18 北京奇艺世纪科技有限公司 一种文本相似度确定方法及装置
CN110516040A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质
CN110704621A (zh) * 2019-09-25 2020-01-17 北京大米科技有限公司 文本处理方法、装置及存储介质和电子设备
CN110941951A (zh) * 2019-10-15 2020-03-31 平安科技(深圳)有限公司 文本相似度计算方法、装置、介质及电子设备
CN112084331A (zh) * 2020-08-27 2020-12-15 清华大学 文本处理、模型训练方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蔡圆媛: "《大数据环境下基于知识整合的语义计算技术与应用》", 北京理工大学出版社, pages: 97 - 101 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988045A (zh) * 2021-12-28 2022-01-28 浙江口碑网络技术有限公司 文本相似度确定方法、文本处理方法、相应的装置和设备
CN114398968A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN114357989A (zh) * 2022-01-10 2022-04-15 北京百度网讯科技有限公司 视频标题生成方法、装置、电子设备及存储介质
CN114357989B (zh) * 2022-01-10 2023-09-26 北京百度网讯科技有限公司 视频标题生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113011172B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111708873B (zh) 智能问答方法、装置、计算机设备和存储介质
CN111581510B (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN111008332B (zh) 内容项推荐方法、装置、服务器以及存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111046275B (zh) 基于人工智能的用户标签确定方法及装置、存储介质
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
CN113011172B (zh) 文本处理方法、装置、计算机设备和存储介质
CN113392651B (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
WO2014160282A1 (en) Classifying resources using a deep network
CN111783903B (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN115577185A (zh) 基于混合推理和中智群决策的慕课推荐方法及装置
CN114239730A (zh) 一种基于近邻排序关系的跨模态检索方法
CN114329004A (zh) 数字指纹生成、数据推送方法、装置和存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN113761887A (zh) 基于文本处理的匹配方法、装置、计算机设备和存储介质
CN116578729A (zh) 内容搜索方法、装置、电子设备、存储介质和程序产品
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN115269961A (zh) 内容搜索方法以及相关设备
CN114329181A (zh) 一种题目推荐方法、装置及电子设备
CN114022233A (zh) 一种新型的商品推荐方法
CN114168790A (zh) 一种基于特征自动组合的个性化视频推荐方法及系统
CN113761270A (zh) 视频召回方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40047259

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant