CN113486659A - 文本匹配方法、装置、计算机设备及存储介质 - Google Patents
文本匹配方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113486659A CN113486659A CN202110570486.2A CN202110570486A CN113486659A CN 113486659 A CN113486659 A CN 113486659A CN 202110570486 A CN202110570486 A CN 202110570486A CN 113486659 A CN113486659 A CN 113486659A
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- word segmentation
- interactive
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000011218 segmentation Effects 0.000 claims abstract description 252
- 230000002452 interceptive effect Effects 0.000 claims abstract description 116
- 238000000605 extraction Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000006243 chemical reaction Methods 0.000 claims description 95
- 238000004364 calculation method Methods 0.000 claims description 76
- 239000013598 vector Substances 0.000 claims description 72
- 230000004927 fusion Effects 0.000 claims description 46
- 230000003993 interaction Effects 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000007246 mechanism Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 235000019580 granularity Nutrition 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000007704 transition Effects 0.000 description 22
- 238000010845 search algorithm Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000000295 complement effect Effects 0.000 description 6
- 238000005094 computer simulation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种文本匹配方法、装置、计算机设备及存储介质,通过对文本进行分词处理得到多种分词结果并基于预设词性转换概率矩阵计算每种分词结果的转换概率,从而根据转换概率从多种分词结果中获取目标分词结果,有助于提高后续文本匹配的准确度。利用特征提取模型对目标分词结果进行特征提取得到分词的编码特征,再对文本与待匹配的文本进行交互处理,得到分词的交互表示,能够更好地捕捉语句序列的特征信息和词粒度的特征信息,能够获得不同层次更丰富的匹配模式,进而可以更好地捕捉两个文本自身以及相互之间的不同粒度的交互信息,最后根据编码特征、交互表示计算文本的匹配度,进一步提高了文本匹配的准确度。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种文本匹配方法、装置、计算机设备及存储介质。
背景技术
文本匹配方法主要包括传统的文本匹配方法、主题模型匹配方法和深度语义匹配模型,但是,传统的文本匹配方法主要是基于词汇重合度的匹配算法,有很大的局限性,仅依赖字面匹配程度,准确性较低;主题模型匹配方法需要人工设计特征,人工成本较高,并且人工设计特征依赖设计者能力,也存在准确性问题;基于深度语义匹配模型不需要人工设计特征且能更好的表示文本的语义信息,但是目前只考虑了基于词语之间的匹配关系,考虑因素单一,也降低了匹配的准确性。
发明内容
鉴于以上内容,有必要提出一种文本匹配方法、装置、计算机设备及存储介质,旨在于解决现有技术中文本匹配的准确度较低的技术问题。
本发明的第一方面提供一种文本匹配方法,所述方法包括:
对第一文本进行分词处理得到多种第一分词结果及对第二文本进行分词处理得到多种第二分词结果;
基于预设词性转换概率矩阵计算每种第一分词结果的第一转换概率及每种第二分词结果的第二转换概率;
根据所述第一转换概率从所述多种第一分词结果中获取第一目标分词结果,及根据所述第二转换概率从所述多种第二分词结果中获取第二目标分词结果;
利用特征提取模型对所述第一目标分词结果进行特征提取得到第一分词的第一编码特征,及对所述第二目标分词结果进行特征提取得到第二分词的第二编码特征;
对所述第一文本和所述第二文本进行交互处理,得到所述第一分词的第一交互表示及所述第二分词的第二交互表示;
根据所述第一编码特征、所述第一交互表示、所述第二编码特征及所述第二交互表示计算所述第一文本与所述第二文本之间的匹配度。
在一个可选的实施方式中,所述对第一文本进行分词处理得到多种第一分词结果包括:
获取所述第一文本的字符数;
根据所述字符数建立网络拓补图;
当所述第一文本中的第i个字符与第j个字符之间的字符能够构成一个词,在所述网络拓补图的第i个顶点和第j个顶点之间建立有向边,得到有向图,所述有向图的有向边对应的词为第i个字符与第j个字符之间的字符;
采用最短图路径搜索算法搜索所述有向图中的最短路径;
根据所述最短路径对应的字符得到第一分词结果。
在一个可选的实施方式中,所述利用特征提取模型对所述第一目标分词结果进行特征提取得到第一分词的第一编码特征,及对所述第二目标分词结果进行特征提取得到第二分词的第二编码特征包括:
提取所述第一分词的第一词向量,及所述第二分词的第二词向量;
根据所述第一分词的第一索引对所述第一词向量进行组合得到第一编码向量,及根据所述第二分词的第二索引对所述第二词向量进行组合得到第二编码向量;
使用特征提取模型对所述第一编码向量进行特征提取得到所述第一分词的第一编码特征,及对所述第二编码向量进行特征提取得到所述第二分词的第二编码特征。
在一个可选的实施方式中,所述根据所述第一编码特征、所述第一交互表示、所述第二编码特征及所述第二交互表示计算所述第一文本与所述第二文本之间的匹配度包括:
根据所述第一分词的第一交互表示得到第一交互特征,及根据所述第二分词的第二交互表示得到第二交互特征;
将所述第一编码特征和所述第一交互特征进行特征融合得到第一融合特征,将所述第二编码特征和所述第二交互特征进行特征融合得到第二融合特征;
根据所述第一融合特征和所述第二融合特征计算所述第一文本和所述第二文本之间的匹配度。
在一个可选的实施方式中,所述将所述第一编码特征和所述第一交互特征进行特征融合得到第一融合特征包括:
采用第一计算模型基于所述第一编码特征和所述第一交互特征进行计算,得到第一计算特征;
采用第二计算模型基于所述第一编码特征和所述第一交互特征进行计算,得到第二计算特征;
根据所述第一编码特征、所述第一交互特征、所述第一计算特征及所述第二计算特征进行融合得到第一融合特征。
在一个可选的实施方式中,所述对所述第一文本和所述第二文本进行交互处理,得到所述第一分词的第一交互表示及所述第二分词的第二交互表示包括:
通过注意力机制将所述第一文本与所述第二文本进行交互处理,所述第一文本中的每个第一分词使用所述第二文本中的所有第二分词进行加权计算得到的第一和值表示,所述第二文本中的每个第二分词使用所述第一文本中的所有第一分词进行加权计算得到的第二和值表示。
在一个可选的实施方式中,所述方法还包括:
当所述第一文本为搜索文本且所述第二文本为视频文本时,推荐与所述搜索文本的匹配度大于预设第一匹配度阈值的目标视频文本对应的目标视频;
当所述第一文本为问题文本且所述第二文本为标准文本时,显示与所述问题文本的匹配度大于预设第二匹配度阈值的标准文本对应的标准话术。
本发明的第二方面提供一种文本匹配装置,所述装置包括:
分词处理模块,用于对第一文本进行分词处理得到多种第一分词结果及对第二文本进行分词处理得到多种第二分词结果;
概率计算模块,用于基于预设词性转换概率矩阵计算每种第一分词结果的第一转换概率及每种第二分词结果的第二转换概率;
结果选取模块,用于根据所述第一转换概率从所述多种第一分词结果中获取第一目标分词结果,及根据所述第二转换概率从所述多种第二分词结果中获取第二目标分词结果;
特征提取模块,用于利用特征提取模型对所述第一目标分词结果进行特征提取得到第一分词的第一编码特征,及对所述第二目标分词结果进行特征提取得到第二分词的第二编码特征;
交互处理模块,用于对所述第一文本和所述第二文本进行交互处理,得到所述第一分词的第一交互表示及所述第二分词的第二交互表示;
匹配计算模块,用于根据所述第一编码特征、所述第一交互表示、所述第二编码特征及所述第二交互表示计算所述第一文本与所述第二文本之间的匹配度。
本发明的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述文本匹配方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述文本匹配方法。
综上所述,本发明所述的文本匹配方法、装置、计算机设备及存储介质,通过对文本进行分词处理得到多种分词结果,并基于预设词性转换概率矩阵计算每种分词结果的转换概率,从而根据转换概率从所述多种分词结果中获取目标分词结果,有助于提高后续文本匹配的准确度。接着,利用特征提取模型对所述目标分词结果进行特征提取得到分词的编码特征,再对文本与待匹配的文本进行交互处理,得到分词的交互表示,最后根据所述编码特征、所述交互表示计算文本与待匹配的之间的匹配度,通过对分词进行编码和交互表示,能够更好地捕捉语句序列的特征信息和词粒度的特征信息,能够获得不同层次更丰富的匹配模式,进而可以更好地捕捉两个文本自身以及相互之间的不同粒度的交互信息,得到更高质量的文本匹配结果,进一步提高了文本匹配的准确度。
附图说明
图1是本发明实施例一提供的文本匹配方法的流程图。
图2是本发明实施例二提供的文本匹配装置的结构图。
图3是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例提供的文本匹配方法由计算机设备执行,相应地,文本匹配装置运行于计算机设备中。
图1是本发明实施例一提供的文本匹配方法的流程图。所述文本匹配方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,对第一文本进行分词处理得到多种第一分词结果及对第二文本进行分词处理得到多种第二分词结果。
其中,第一文本和第二文本是需要进行文本匹配的文本。
计算机设备可以采用结巴分词工具对第一文本和第二文本进行分词处理。由于结巴分词工具需要事先创建词库,那么创建词库中的关键词的多少及关键词所涉及的领域的不同,都会导致在使用结巴分词工具在对第一文本或者第二文本进行分词时,可能会得到多种不同的分词结果。
示例性的,假设文本语句为“他说的确实有道理”,进行分词处理,可以得到如下两种分词结果:
他/说/的/确实/有道理。
他/说/的确/实/有道理。
在一个可选的实施方式中,所述对第一文本进行分词处理得到多种第一分词结果包括:
获取所述第一文本的第一字符数;
根据所述第一字符数建立第一网络拓补图;
当所述第一文本中的第i个字符与第j个字符之间的字符能够构成一个词,在所述第一网络拓补图的第i个顶点和第j个顶点之间建立有向边,得到第一有向图,所述第一有向图的有向边对应的词为所述第一文本中的第i个字符与第j个字符之间的字符;
采用最短图路径搜索算法搜索所述第一有向图中的第一最短路径;
根据所述第一最短路径对应的字符得到第一分词结果。
假设第一文本包括n1个字符,每个字符为一个单字,则建立一个n1+1的第一网络拓补图。第一网络拓补图中相邻顶点之间建立有向边<Vk1-1,Vk1>,边对应的词为Ck1,k1=1,2,…,n1。
如果w1=cici+1…cj是一个词,则顶点Vi和Vj之间建立有向边<Vi-1,Vj>,边对应的词为w1,不断重复这个过程,直到没有新的路径产生,即完成了将第一网络拓补图更新为第一有向图的过程。
可以采用最短图路径搜索算法搜索所述第一有向图中的第一最短路径,第一最短路径中每条有向边对应的词作为一个分词,将第一最短路径上所有的有向边对应的分词组合起来得到第一分词结果。第一分词结果可以为一种或者多种,当采用最短图路径搜索算法在所述第一有向图中搜索到一条第一最短路径,则对应的第一分词结果为一种,当采用最短图路径搜索算法在所述第一有向图中搜索到多条第一最短路径,则对应的第一分词结果为多种,一条第一最短路径对应一种第一分词结果。
在一个可选的实施方式中,所述对第二文本进行分词处理得到多种第二分词结果包括:
获取所述第二文本的第二字符数;
根据所述第二字符数建立第二网络拓补图;
当所述第二文本中的第i个字符与第j个字符之间的字符能够构成一个词,在所述第二网络拓补图的第i个顶点和第j个顶点之间建立有向边,得到第二有向图,所述第二有向图的有向边对应的词为所述第二文本中的第i个字符与第j个字符之间的字符;
采用最短图路径搜索算法搜索所述第二有向图中的第二最短路径;
根据所述第二最短路径对应的字符得到第二分词结果。
假设第二文本包括n2个字符,每个字符为一个单字,则建立一个n2+1的第二网络拓补图。第二网络拓补图中相邻顶点之间建立有向边<Vk2-1,Vk2>,边对应的词为Ck2,k2=1,2,…,n2。
如果w2=cici+1…cj是一个词,则顶点Vi和Vj之间建立有向边<Vi-1,Vj>,边对应的词为w2,不断重复这个过程,直到没有新的路径产生,即完成了将第二网络拓补图更新为第二有向图的过程。
可以采用最短图路径搜索算法搜索所述第二有向图中的第二最短路径,第二最短路径中每条有向边对应的词作为一个分词,将第二最短路径上所有的有向边对应的分词组合起来得到第二分词结果。第二分词结果可以为一种或者多种,当采用最短图路径搜索算法在所述第二有向图中搜索到一条第二最短路径,则对应的第二分词结果为一种,当采用最短图路径搜索算法在所述第二有向图中搜索到多条第二最短路径,则对应的第二分词结果为多种,一条第二最短路径对应一种第二分词结果。
现有技术中,无论采用基于理解的分词方法还是基于统计的分词方法,都会经常出现一些共现频度高、但并不是词的常用字组,因此传统的这种分词方法对常用词的识别精度较差。本实施方式通过建立网络拓补图并采用最短图路径搜索算法进行分词处理得到分词结果,能够有效的提高分词的识别结果,从而有助于提高文本匹配的准确度。
S12,基于预设词性转换概率矩阵计算每种第一分词结果的第一转换概率及每种第二分词结果的第二转换概率。
当得到第一分词结果或者第二分词结果为多种时,为了快速的确定多种第一分词结果中的哪一个第一分词结果最为准确,或者确定多种第二分词结果中的哪一个第二分词结果最为准确,可以使用预设词性转换概率矩阵计算每种第一分词结果的第一转换概率及每种第二分词结果的第二转换概率,从而根据第一转换概率从多种第一分词结果中选取准确度最高的第一分词结果,根据第二转换概率从多种第一分词结果中选取准确度最高的第二分词结果。
其中,预设词性转换概率矩阵是预先根据语料库中词性的标注统计得到的转换概率,是多次试验得到的经验值。
其中,词性可以包括名词、形容词、拟声词、介词、量词、动词、代词、连词等。
预设词性转换概率矩阵中记录了每一种词性转换为另一种词性的转换概率,比如,名词转换为动词的转换概率,数词转换为名词的转换概率。
根据预设词性转换概率矩阵匹配每种第一分词结果中前一个分词与后一个分词之间的第一词性转换概率,再将所有的第一词性转换概率进行加和计算,得到第一转换概率。根据预设词性转换概率矩阵匹配每种第二分词结果中前一个分词与后一个分词之间的第二词性转换概率,再将所有的第二词性转换概率进行加和计算,得到第二转换概率。
如前述实施例,“他”为代词,“说”为动词,“的”为助动词,“确实”和“有道理”为形容词,则匹配代词转换为动词的转换概率p1,动词转换为助动词的转换概率p2,助动词转换为形容词的转换概率p3,形容词转换为形容词的转换概率p4,计算p1、p2、p3、p4之和,得到最终该文本语句的转换概率。
S13,根据所述第一转换概率从所述多种第一分词结果中获取第一目标分词结果,及根据所述第二转换概率从所述多种第二分词结果中获取第二目标分词结果。
在计算得到每种第一分词结果的第一转换概率之后,将所有的第一转换概率进行顺序排序或者倒序排序,从而根据排序后的第一转换概率确定第一最大转换概率,将第一最大转换概率对应的第一分词结果确定为第一目标分词结果。
在计算得到每种第二分词结果的第二转换概率之后,将所有的第二转换概率进行顺序排序或者倒序排序,从而根据排序后的第二转换概率确定第二最大转换概率,将第二最大转换概率对应的第二分词结果确定为第二目标分词结果。
由于自然语言表达方式的多样性及语句结构的复杂性,新的词汇不断出现,影响了分词的准确度。尤其是对于许多歧义字段难以准确切分的文本语句,导致进行分词处理时会存在多种分词结果,本实施方式通过预先统计并创建词性转换概率矩阵,不仅能够消除歧义字段以准确切分文本语句,且通过匹配前一个分词转换为后一个分词的转换概率,能够快速且直接的计算分词处理得到的分词结果的转换概率,从而提高了确定目标分词结果的效率。
S14,利用特征提取模型对所述第一目标分词结果进行特征提取得到第一分词的第一编码特征,及对所述第二目标分词结果进行特征提取得到第二分词的第二编码特征。
其中,所述特征提取模型为预先训练得到的,在本实施例中,特征提取模型可以包括顺序连接的一个基于自注意力机制的编码器、一个基于自注意力机制的第一解码器以及一个基于自注意力机制的第二解码器,其中,相连接的所述编码器和所述第一解码器组成了一个基于自注意力机制的Transformer模型。
其中,第二解码器由第一解码器、N个多头自注意力机制层以及N个全连接的前向神经网络组成,N为第一解码器包括的网络块的数量。
其中,N个全连接的前向神经网络分别与N个网络块中的Feed Forward层相连并位于Feed Forward层之前,N个多头自注意力机制层分别与N个全连接的前向神经网络相连并位于全连接的前向神经网络之前;其中,新增加的多头自注意力机制层的输入包括第一解码器的输出;其中,新增加的多头自注意力机制层之前的多头自注意力机制层的输入包括编码的输出。
在一个可选的实施方式中,所述利用特征提取模型对所述第一目标分词结果进行特征提取得到第一分词的第一编码特征,及对所述第二目标分词结果进行特征提取得到第二分词的第二编码特征包括:
提取所述第一分词的第一词向量,及所述第二分词的第二词向量;
根据所述第一分词的第一索引对所述第一词向量进行组合得到第一编码向量,及根据所述第二分词的第二索引对所述第二词向量进行组合得到第二编码向量;
使用特征提取模型对所述第一编码向量进行特征提取得到所述第一分词的第一编码特征,及对所述第二编码向量进行特征提取得到所述第二分词的第二编码特征。
计算机设备在将第一文本进行分词处理得到多个第一分词后,确定每个第一分词在第一文本中的序号,作为第一分词在第一文本中的第一索引,根据所述第一分词的第一索引对所述第一词向量进行排序,将排序后的第一词向量进行组合得到第一编码向量。
计算机设备在将第二文本进行分词处理得到多个第二分词后,确定每个第二分词在第二文本中的序号,作为第二分词在第二文本中的第二索引,根据所述第二分词的第二索引对所述第二词向量进行排序,将排序后的第二词向量进行组合得到第二编码向量。
假设有两个文本语句S1和S2,文本语句S1由n个分词组成,S1=w11w12…w1n,文本语句S2由m个分词组成,S2=w21w22…w2m,通过词编码器将文本语句S1中的分词编码成词向量e=word_embedding(w1n),将文本语句S2中的分词编码成词向量e=word_embedding(w2m),这样文本语句S1和S2就被编码成了向量序列,例如文本语句S1被编码成编码向量E1=e11e12…e1n,文本语句S2被编码成编码向量E2=e21e22…e2m。
由于传统的基于神经网络的特征提取模型一般一个batch里面的语句是随机选取的,但是,本实施例中的特征提取模型在训练时,要求一个batch里面的句子是一个文本中包括的所有文本语句,如此才能保证第一解码器可以输出每一个文本语句的单独特征提取结果,进而第二解码器才能够使用第一解码器的输出结果作为上下文特征提取信息,并参照该上下文特征提取信息进行特征提取,进一步提高输出编码特征的上下文语义一致性。
第一文本S1的n个第一分词中每个第一分词被编码为b维向量,则第一文本S1被转换为b*n维的二维矩阵。第二文本S2的m个第二分词中每个第二分词被编码为b维向量,则第二文本S2被转换为b*m维的二维矩阵。
S15,对所述第一文本和所述第二文本进行交互处理,得到所述第一分词的第一交互表示及所述第二分词的第二交互表示。
可以基于软注意力机制计算两个文本之间的软注意力权重,使用软注意力机制计算两个文本之间的软注意力权重能够捕捉两个文本之间交互的信息。
在一个可选的实施方式中,所述对所述第一文本和所述第二文本进行交互处理,得到所述第一分词的第一交互表示及所述第二分词的第二交互表示包括:
通过注意力机制将所述第一文本与所述第二文本进行交互处理,所述第一文本中的每个第一分词使用所述第二文本中的所有第二分词进行加权计算得到的第一和值表示,所述第二文本中的每个第二分词使用所述第一文本中的所有第一分词进行加权计算得到的第二和值表示。
通过注意力机制将第一文本S1和第二文本S2进行交互处理,第一文本S1中的每个第一分词使用第二文本S2中的第二分词表示,第二文本S2中的每个第二分词使用第一文本S1中的第一分词表示。
例如第一文本中的第一分词w11=α1*w21+α2*w22+…+αm*w2m,其中,αm为注意力权重,w2m为第二文本S2中的第二分词经过CNN编码后的b维向量,如此,经过注意力机制将两个文本进行交互处理,可以得到第一分词的另外一个编码v2,第一文本S1中的每个第一分词得到了两个特征向量v1和v2,特征向量v1为第一文本S1中的该第一分词的第一编码特征,特征向量v2为第一文本S1中的该第一分词的第一交互表示。同样地,第二文本S2中的每个第二分词得到了两个特征向量v1’和v2’,特征向量v1’为第二文本S2中的该第二分词的第二编码特征,特征向量v2’为第二文本S2中的该第二分词的第二交互表示。
通过注意力机制层可以捕捉第一文本和第二文本之间的交互信息,即相似和不相似的地方,从而更加充分的捕捉第一文本和第二文本之间的细粒度特征信息。
S16,根据所述第一编码特征、所述第一交互表示、所述第二编码特征及所述第二交互表示计算所述第一文本与所述第二文本之间的匹配度。
若需要计算两个文本语句的文本匹配度,即文本语句之间的语义相似度,则可以通过这两个文本语句的编码特征和交互表示对两个文本语句进行相似度计算。
在一个可选的实施方式中,所述根据所述第一编码特征、所述第一交互表示、所述第二编码特征及所述第二交互表示计算所述第一文本与所述第二文本之间的匹配度包括:
根据所述第一分词的第一交互表示得到第一交互特征,及根据所述第二分词的第二交互表示得到第二交互特征;
将所述第一编码特征和所述第一交互特征进行特征融合得到第一融合特征,将所述第二编码特征和所述第二交互特征进行特征融合得到第二融合特征;
根据所述第一融合特征和所述第二融合特征计算所述第一文本和所述第二文本之间的匹配度。
计算机设备可以将第一文本中所有的第一分词的第一交互表示进行拼接,得到第一文本的第一交互特征。计算机设备可以将第二文本中所有的第二分词的第二交互表示进行拼接,得到第二文本的第二交互特征。
第一融合特征是第一文本的特征表示,第二融合特征是第二文本的特征表示,通过对第一文本和第二文本进行交互处理得到交互特征,并将交互特征与对应的编码特征进行融合,使得第一融合特征和第二融合特征的维度相同,即,第一文本的特征表示和第二文本的特征表示的维度相同,如此能够计算第一融合特征与第二融合特征的相似度,作为第一文本和第二文本的相似度。
计算机设备可以计算第一融合特征和第二融合特征之间的欧式距离或者余弦夹角来计算第一文本和第二文本之间的匹配度。欧式距离越大,或者余弦夹角大,表明第一文本和第二文本的相似度越小,欧式距离越小,或者余弦夹角小,表明第一文本和第二文本的相似度越大。
在一个可选的实施方式中,将所述第一编码特征和所述第一交互特征进行特征融合得到第一融合特征包括:
采用第一计算模型基于所述第一编码特征和所述第一交互特征进行计算,得到第一计算特征;
采用第二计算模型基于所述第一编码特征和所述第一交互特征进行计算,得到第二计算特征;
根据所述第一编码特征、所述第一交互特征、所述第一计算特征及所述第二计算特征进行融合得到第一融合特征。
其中,第一计算模型和第二计算模型为预先设置的数学模型。
示例性的,假设V1表示第一分词的第一编码特征,V2表示第一分词的第一交互特征,则第一计算模型计算得到的第一计算特征可以为y1=V1-V2,第二计算模型计算得到的第二计算特征可以为y2=V1*v2。
通过第一计算模型对第一编码特征和第一交互特征进行计算,得到的第一计算特征,能够有效的表示第一编码特征和第一交互特征之间的差异性。
通过第二计算模型对第一编码特征和第一交互特征进行计算,得到的第二计算特征,能够有效的表示第一编码特征和第一交互特征之间的相似性。
接下来将将第一编码特征及对应的第一交互特征、第一计算特征及第二计算特征进行融合得到第一融合特征(V1,V2,V1-V2,V1*V2),由于V1和V2都是b维,因此上述特征表示是4×b维的。
同理,将所述第二编码特征和所述第二交互特征进行特征融合得到第二融合特征包括:采用所述第一计算模型基于所述第二编码特征和所述第二交互特征进行计算,得到第三计算特征;采用所述第二计算模型基于所述第二编码特征和所述第二交互特征进行计算,得到第四计算特征;根据所述第二编码特征、所述二交互特征、所述第三计算特征及所述第四计算特征进行融合得到第二融合特征。
本发明所述的方法,通过对文本进行分词处理得到多种分词结果,并基于预设词性转换概率矩阵计算每种分词结果的转换概率,从而根据转换概率从所述多种分词结果中获取目标分词结果,有助于提高后续文本匹配的准确度。接着,利用特征提取模型对所述目标分词结果进行特征提取得到分词的编码特征,再对文本与待匹配的文本进行交互处理,得到分词的交互表示,最后根据所述编码特征、所述交互表示计算文本与待匹配的之间的匹配度,通过对分词进行编码和交互表示,能够更好地捕捉语句序列的特征信息和词粒度的特征信息,能够获得不同层次更丰富的匹配模式,进而可以更好地捕捉两个文本自身以及相互之间的不同粒度的交互信息,得到更高质量的文本匹配结果,进一步提高了文本匹配的准确度。
本发明提供的文本匹配方法,可以应用于文本搜索,视频搜索,智能话术推荐等多种业务领域。
在一个可选的实施方式中,所述第一文本为搜索文本,所述第二文本为视频文本,所述方法还包括:
推荐与所述搜索文本的匹配度大于预设第一匹配度阈值的目标视频文本对应的目标视频。
计算机设备可以预先存储多个视频,并提取每个视频的标题的文本,或者提取每个视频的内容的文本,作为视频文本。搜索文本为用户输入的描述性文本,采用本发明提供的方法,首先计算搜索文本与每个视频文本之间的匹配度,再将每个匹配度与预设第一匹配度阈值进行比较,最后将大于预设第一匹配度阈值的匹配度作为目标匹配度,目标匹配度对应的视频文本为目标视频文本。从而能够快速的搜索出与搜索文本相匹配的目标视频并进行推荐,视频搜索与推荐效率高。
在一个可选的实施方式中,所述第一文本为问题文本,第二文本为标准文本,所述方法还包括:
显示与所述问题文本的匹配度大于预设第二匹配度阈值的标准文本对应的标准话术。
计算机设备可以预先存储多个标准文本及多个标准话术,标准文本与标准话术一一对应。问题文本为根据用户的问题语音识别得到的文本,采用本发明提供的方法,首先计算问题文本与每个标准文本之间的匹配度,再将每个匹配度与预设第二匹配度阈值进行比较,最后将大于预设第二匹配度阈值的匹配度作为目标匹配度,目标匹配度对应的标准文本为目标标准文本,显示目标标准文本对应的标准话术。从而能够快速的搜索出与文本相匹配的标准话术并进行显示,标准话术的搜索效率高。
需要强调的是,为进一步保证上述预设词性转换概率矩阵的私密性和安全性,上述预设词性转换概率矩阵可存储于区块链的节点中。
图2是本发明实施例二提供的文本匹配装置的结构图。
在一些实施例中,所述文本匹配装置20可以包括多个由计算机程序段所组成的功能模块。所述文本匹配装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)文本匹配的功能。
本实施例中,所述文本匹配装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:分词处理模块201、概率计算模块202、结果选取模块203、特征提取模块204、交互处理模块205及匹配计算模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述分词处理模块201,用于对第一文本进行分词处理得到多种第一分词结果及对第二文本进行分词处理得到多种第二分词结果。
其中,第一文本和第二文本是需要进行文本匹配的文本。
计算机设备可以采用结巴分词工具对第一文本和第二文本进行分词处理。由于结巴分词工具需要事先创建词库,那么创建词库中的关键词的多少及关键词所涉及的领域的不同,都会导致在使用结巴分词工具在对第一文本或者第二文本进行分词时,可能会得到多种不同的分词结果。
示例性的,假设文本语句为“他说的确实有道理”,进行分词处理,可以得到如下两种分词结果:
他/说/的/确实/有道理。
他/说/的确/实/有道理。
在一个可选的实施方式中,所述分词处理模块201对第一文本进行分词处理得到多种第一分词结果包括:
获取所述第一文本的第一字符数;
根据所述第一字符数建立第一网络拓补图;
当所述第一文本中的第i个字符与第j个字符之间的字符能够构成一个词,在所述第一网络拓补图的第i个顶点和第j个顶点之间建立有向边,得到第一有向图,所述第一有向图的有向边对应的词为所述第一文本中的第i个字符与第j个字符之间的字符;
采用最短图路径搜索算法搜索所述第一有向图中的第一最短路径;
根据所述第一最短路径对应的字符得到第一分词结果。
假设第一文本包括n1个字符,每个字符为一个单字,则建立一个n1+1的第一网络拓补图。第一网络拓补图中相邻顶点之间建立有向边<Vk1-1,Vk1>,边对应的词为Ck1,k1=1,2,…,n1。
如果w1=cici+1…cj是一个词,则顶点Vi和Vj之间建立有向边<Vi-1,Vj>,边对应的词为w1,不断重复这个过程,直到没有新的路径产生,即完成了将第一网络拓补图更新为第一有向图的过程。
可以采用最短图路径搜索算法搜索所述第一有向图中的第一最短路径,第一最短路径中每条有向边对应的词作为一个分词,将第一最短路径上所有的有向边对应的分词组合起来得到第一分词结果。第一分词结果可以为一种或者多种,当采用最短图路径搜索算法在所述第一有向图中搜索到一条第一最短路径,则对应的第一分词结果为一种,当采用最短图路径搜索算法在所述第一有向图中搜索到多条第一最短路径,则对应的第一分词结果为多种,一条第一最短路径对应一种第一分词结果。
在一个可选的实施方式中,所述分词处理模块201对第二文本进行分词处理得到多种第二分词结果包括:
获取所述第二文本的第二字符数;
根据所述第二字符数建立第二网络拓补图;
当所述第二文本中的第i个字符与第j个字符之间的字符能够构成一个词,在所述第二网络拓补图的第i个顶点和第j个顶点之间建立有向边,得到第二有向图,所述第二有向图的有向边对应的词为所述第二文本中的第i个字符与第j个字符之间的字符;
采用最短图路径搜索算法搜索所述第二有向图中的第二最短路径;
根据所述第二最短路径对应的字符得到第二分词结果。
假设第二文本包括n2个字符,每个字符为一个单字,则建立一个n2+1的第二网络拓补图。第二网络拓补图中相邻顶点之间建立有向边<Vk2-1,Vk2>,边对应的词为Ck2,k2=1,2,…,n2。
如果w2=cici+1…cj是一个词,则顶点Vi和Vj之间建立有向边<Vi-1,Vj>,边对应的词为w2,不断重复这个过程,直到没有新的路径产生,即完成了将第二网络拓补图更新为第二有向图的过程。
可以采用最短图路径搜索算法搜索所述第二有向图中的第二最短路径,第二最短路径中每条有向边对应的词作为一个分词,将第二最短路径上所有的有向边对应的分词组合起来得到第二分词结果。第二分词结果可以为一种或者多种,当采用最短图路径搜索算法在所述第二有向图中搜索到一条第二最短路径,则对应的第二分词结果为一种,当采用最短图路径搜索算法在所述第二有向图中搜索到多条第二最短路径,则对应的第二分词结果为多种,一条第二最短路径对应一种第二分词结果。
现有技术中,无论采用基于理解的分词方法还是基于统计的分词方法,都会经常出现一些共现频度高、但并不是词的常用字组,因此传统的这种分词方法对常用词的识别精度较差。本实施方式通过建立网络拓补图并采用最短图路径搜索算法进行分词处理得到分词结果,能够有效的提高分词的识别结果,从而有助于提高文本匹配的准确度。
所述概率计算模块202,用于基于预设词性转换概率矩阵计算每种第一分词结果的第一转换概率及每种第二分词结果的第二转换概率。
当得到第一分词结果或者第二分词结果为多种时,为了快速的确定多种第一分词结果中的哪一个第一分词结果最为准确,或者确定多种第二分词结果中的哪一个第二分词结果最为准确,可以使用预设词性转换概率矩阵计算每种第一分词结果的第一转换概率及每种第二分词结果的第二转换概率,从而根据第一转换概率从多种第一分词结果中选取准确度最高的第一分词结果,根据第二转换概率从多种第一分词结果中选取准确度最高的第二分词结果。
其中,预设词性转换概率矩阵是预先根据语料库中词性的标注统计得到的转换概率,是多次试验得到的经验值。
其中,词性可以包括名词、形容词、拟声词、介词、量词、动词、代词、连词等。
预设词性转换概率矩阵中记录了每一种词性转换为另一种词性的转换概率,比如,名词转换为动词的转换概率,数词转换为名词的转换概率。
根据预设词性转换概率矩阵匹配每种第一分词结果中前一个分词与后一个分词之间的第一词性转换概率,再将所有的第一词性转换概率进行加和计算,得到第一转换概率。根据预设词性转换概率矩阵匹配每种第二分词结果中前一个分词与后一个分词之间的第二词性转换概率,再将所有的第二词性转换概率进行加和计算,得到第二转换概率。
如前述实施例,“他”为代词,“说”为动词,“的”为助动词,“确实”和“有道理”为形容词,则匹配代词转换为动词的转换概率p1,动词转换为助动词的转换概率p2,助动词转换为形容词的转换概率p3,形容词转换为形容词的转换概率p4,计算p1、p2、p3、p4之和,得到最终该文本语句的转换概率。
所述结果选取模块203,用于根据所述第一转换概率从所述多种第一分词结果中获取第一目标分词结果,及根据所述第二转换概率从所述多种第二分词结果中获取第二目标分词结果。
在计算得到每种第一分词结果的第一转换概率之后,将所有的第一转换概率进行顺序排序或者倒序排序,从而根据排序后的第一转换概率确定第一最大转换概率,将第一最大转换概率对应的第一分词结果确定为第一目标分词结果。
在计算得到每种第二分词结果的第二转换概率之后,将所有的第二转换概率进行顺序排序或者倒序排序,从而根据排序后的第二转换概率确定第二最大转换概率,将第二最大转换概率对应的第二分词结果确定为第二目标分词结果。
由于自然语言表达方式的多样性及语句结构的复杂性,新的词汇不断出现,影响了分词的准确度。尤其是对于许多歧义字段难以准确切分的文本语句,导致进行分词处理时会存在多种分词结果,本实施方式通过预先统计并创建词性转换概率矩阵,不仅能够消除歧义字段以准确切分文本语句,且通过匹配前一个分词转换为后一个分词的转换概率,能够快速且直接的计算分词处理得到的分词结果的转换概率,从而提高了确定目标分词结果的效率。
所述特征提取模块204,用于利用特征提取模型对所述第一目标分词结果进行特征提取得到第一分词的第一编码特征,及对所述第二目标分词结果进行特征提取得到第二分词的第二编码特征。
其中,所述特征提取模型为预先训练得到的,在本实施例中,特征提取模型可以包括顺序连接的一个基于自注意力机制的编码器、一个基于自注意力机制的第一解码器以及一个基于自注意力机制的第二解码器,其中,相连接的所述编码器和所述第一解码器组成了一个基于自注意力机制的Transformer模型。
其中,第二解码器由第一解码器、N个多头自注意力机制层以及N个全连接的前向神经网络组成,N为第一解码器包括的网络块的数量。
其中,N个全连接的前向神经网络分别与N个网络块中的Feed Forward层相连并位于Feed Forward层之前,N个多头自注意力机制层分别与N个全连接的前向神经网络相连并位于全连接的前向神经网络之前;其中,新增加的多头自注意力机制层的输入包括第一解码器的输出;其中,新增加的多头自注意力机制层之前的多头自注意力机制层的输入包括编码的输出。
在一个可选的实施方式中,所述特征提取模块204利用特征提取模型对所述第一目标分词结果进行特征提取得到第一分词的第一编码特征,及对所述第二目标分词结果进行特征提取得到第二分词的第二编码特征包括:
提取所述第一分词的第一词向量,及所述第二分词的第二词向量;
根据所述第一分词的第一索引对所述第一词向量进行组合得到第一编码向量,及根据所述第二分词的第二索引对所述第二词向量进行组合得到第二编码向量;
使用特征提取模型对所述第一编码向量进行特征提取得到所述第一分词的第一编码特征,及对所述第二编码向量进行特征提取得到所述第二分词的第二编码特征。
计算机设备在将第一文本进行分词处理得到多个第一分词后,确定每个第一分词在第一文本中的序号,作为第一分词在第一文本中的第一索引,根据所述第一分词的第一索引对所述第一词向量进行排序,将排序后的第一词向量进行组合得到第一编码向量。
计算机设备在将第二文本进行分词处理得到多个第二分词后,确定每个第二分词在第二文本中的序号,作为第二分词在第二文本中的第二索引,根据所述第二分词的第二索引对所述第二词向量进行排序,将排序后的第二词向量进行组合得到第二编码向量。
假设有两个文本语句S1和S2,文本语句S1由n个分词组成,S1=w11w12…w1n,文本语句S2由m个分词组成,S2=w21w22…w2m,通过词编码器将文本语句S1中的分词编码成词向量e=word_embedding(w1n),将文本语句S2中的分词编码成词向量e=word_embedding(w2m),这样文本语句S1和S2就被编码成了向量序列,例如文本语句S1被编码成编码向量E1=e11e12…e1n,文本语句S2被编码成编码向量E2=e21e22…e2m。
由于传统的基于神经网络的特征提取模型一般一个batch里面的语句是随机选取的,但是,本实施例中的特征提取模型在训练时,要求一个batch里面的句子是一个文本中包括的所有文本语句,如此才能保证第一解码器可以输出每一个文本语句的单独特征提取结果,进而第二解码器才能够使用第一解码器的输出结果作为上下文特征提取信息,并参照该上下文特征提取信息进行特征提取,进一步提高输出编码特征的上下文语义一致性。
第一文本S1的n个第一分词中每个第一分词被编码为b维向量,则第一文本S1被转换为b*n维的二维矩阵。第二文本S2的m个第二分词中每个第二分词被编码为b维向量,则第二文本S2被转换为b*m维的二维矩阵。
所述交互处理模块205,用于对所述第一文本和所述第二文本进行交互处理,得到所述第一分词的第一交互表示及所述第二分词的第二交互表示。
可以基于软注意力机制计算两个文本之间的软注意力权重,使用软注意力机制计算两个文本之间的软注意力权重能够捕捉两个文本之间交互的信息。
在一个可选的实施方式中,所述对所述第一文本和所述第二文本进行交互处理,得到所述第一分词的第一交互表示及所述第二分词的第二交互表示包括:
通过注意力机制将所述第一文本与所述第二文本进行交互处理,所述第一文本中的每个第一分词使用所述第二文本中的所有第二分词进行加权计算得到的第一和值表示,所述第二文本中的每个第二分词使用所述第一文本中的所有第一分词进行加权计算得到的第二和值表示。
通过注意力机制将第一文本S1和第二文本S2进行交互处理,第一文本S1中的每个第一分词使用第二文本S2中的第二分词表示,第二文本S2中的每个第二分词使用第一文本S1中的第一分词表示。
例如第一文本中的第一分词w11=α1*w21+α2*w22+…+αm*w2m,其中,αm为注意力权重,w2m为第二文本S2中的第二分词经过CNN编码后的b维向量,如此,经过注意力机制将两个文本进行交互处理,可以得到第一分词的另外一个编码v2,第一文本S1中的每个第一分词得到了两个特征向量v1和v2,特征向量v1为第一文本S1中的该第一分词的第一编码特征,特征向量v2为第一文本S1中的该第一分词的第一交互表示。同样地,第二文本S2中的每个第二分词得到了两个特征向量v1’和v2’,特征向量v1’为第二文本S2中的该第二分词的第二编码特征,特征向量v2’为第二文本S2中的该第二分词的第二交互表示。
通过注意力机制层可以捕捉第一文本和第二文本之间的交互信息,即相似和不相似的地方,从而更加充分的捕捉第一文本和第二文本之间的细粒度特征信息。
所述匹配计算模块206,用于根据所述第一编码特征、所述第一交互表示、所述第二编码特征及所述第二交互表示计算所述第一文本与所述第二文本之间的匹配度。
若需要计算两个文本语句的文本匹配度,即文本语句之间的语义相似度,则可以通过这两个文本语句的编码特征和交互表示对两个文本语句进行相似度计算。
在一个可选的实施方式中,所述匹配计算模块206根据所述第一编码特征、所述第一交互表示、所述第二编码特征及所述第二交互表示计算所述第一文本与所述第二文本之间的匹配度包括:
根据所述第一分词的第一交互表示得到第一交互特征,及根据所述第二分词的第二交互表示得到第二交互特征;
将所述第一编码特征和所述第一交互特征进行特征融合得到第一融合特征,将所述第二编码特征和所述第二交互特征进行特征融合得到第二融合特征;
根据所述第一融合特征和所述第二融合特征计算所述第一文本和所述第二文本之间的匹配度。
计算机设备可以将第一文本中所有的第一分词的第一交互表示进行拼接,得到第一文本的第一交互特征。计算机设备可以将第二文本中所有的第二分词的第二交互表示进行拼接,得到第二文本的第二交互特征。
第一融合特征是第一文本的特征表示,第二融合特征是第二文本的特征表示,通过对第一文本和第二文本进行交互处理得到交互特征,并将交互特征与对应的编码特征进行融合,使得第一融合特征和第二融合特征的维度相同,即,第一文本的特征表示和第二文本的特征表示的维度相同,如此能够计算第一融合特征与第二融合特征的相似度,作为第一文本和第二文本的相似度。
计算机设备可以计算第一融合特征和第二融合特征之间的欧式距离或者余弦夹角来计算第一文本和第二文本之间的匹配度。欧式距离越大,或者余弦夹角大,表明第一文本和第二文本的相似度越小,欧式距离越小,或者余弦夹角小,表明第一文本和第二文本的相似度越大。
在一个可选的实施方式中,将所述第一编码特征和所述第一交互特征进行特征融合得到第一融合特征包括:
采用第一计算模型基于所述第一编码特征和所述第一交互特征进行计算,得到第一计算特征;
采用第二计算模型基于所述第一编码特征和所述第一交互特征进行计算,得到第二计算特征;
根据所述第一编码特征、所述第一交互特征、所述第一计算特征及所述第二计算特征进行融合得到第一融合特征。
其中,第一计算模型和第二计算模型为预先设置的数学模型。
示例性的,假设V1表示第一分词的第一编码特征,V2表示第一分词的第一交互特征,则第一计算模型计算得到的第一计算特征可以为y1=V1-V2,第二计算模型计算得到的第二计算特征可以为y2=V1*v2。
通过第一计算模型对第一编码特征和第一交互特征进行计算,得到的第一计算特征,能够有效的表示第一编码特征和第一交互特征之间的差异性。
通过第二计算模型对第一编码特征和第一交互特征进行计算,得到的第二计算特征,能够有效的表示第一编码特征和第一交互特征之间的相似性。
接下来将将第一编码特征及对应的第一交互特征、第一计算特征及第二计算特征进行融合得到第一融合特征(V1,V2,V1-V2,V1*V2),由于V1和V2都是b维,因此上述特征表示是4×b维的。
同理,将所述第二编码特征和所述第二交互特征进行特征融合得到第二融合特征包括:采用所述第一计算模型基于所述第二编码特征和所述第二交互特征进行计算,得到第三计算特征;采用所述第二计算模型基于所述第二编码特征和所述第二交互特征进行计算,得到第四计算特征;根据所述第二编码特征、所述二交互特征、所述第三计算特征及所述第四计算特征进行融合得到第二融合特征。
本发明所述的装置,通过对文本进行分词处理得到多种分词结果,并基于预设词性转换概率矩阵计算每种分词结果的转换概率,从而根据转换概率从所述多种分词结果中获取目标分词结果,有助于提高后续文本匹配的准确度。接着,利用特征提取模型对所述目标分词结果进行特征提取得到分词的编码特征,再对文本与待匹配的文本进行交互处理,得到分词的交互表示,最后根据所述编码特征、所述交互表示计算文本与待匹配的之间的匹配度,通过对分词进行编码和交互表示,能够更好地捕捉语句序列的特征信息和词粒度的特征信息,能够获得不同层次更丰富的匹配模式,进而可以更好地捕捉两个文本自身以及相互之间的不同粒度的交互信息,得到更高质量的文本匹配结果,进一步提高了文本匹配的准确度。
本发明提供的文本匹配装置,可以应用于文本搜索,视频搜索,智能话术推荐等多种业务领域。
在一个可选的实施方式中,所述第一文本为搜索文本,所述第二文本为视频文本,所述装置还包括:
视频推荐模块,用于推荐与所述搜索文本的匹配度大于预设第一匹配度阈值的目标视频文本对应的目标视频。
计算机设备可以预先存储多个视频,并提取每个视频的标题的文本,或者提取每个视频的内容的文本,作为视频文本。搜索文本为用户输入的描述性文本,采用本发明提供的方法,首先计算搜索文本与每个视频文本之间的匹配度,再将每个匹配度与预设第一匹配度阈值进行比较,最后将大于预设第一匹配度阈值的匹配度作为目标匹配度,目标匹配度对应的视频文本为目标视频文本。从而能够快速的搜索出与搜索文本相匹配的目标视频并进行推荐,视频搜索与推荐效率高。
在一个可选的实施方式中,所述第一文本为问题文本,第二文本为标准文本,所述装置还包括:
话术显示模块,用于显示与所述问题文本的匹配度大于预设第二匹配度阈值的标准文本对应的标准话术。
计算机设备可以预先存储多个标准文本及多个标准话术,标准文本与标准话术一一对应。问题文本为根据用户的问题语音识别得到的文本,采用本发明提供的方法,首先计算问题文本与每个标准文本之间的匹配度,再将每个匹配度与预设第二匹配度阈值进行比较,最后将大于预设第二匹配度阈值的匹配度作为目标匹配度,目标匹配度对应的标准文本为目标标准文本,显示目标标准文本对应的标准话术。从而能够快速的搜索出与文本相匹配的标准话术并进行显示,标准话术的搜索效率高。
需要强调的是,为进一步保证上述预设词性转换概率矩阵的私密性和安全性,上述预设词性转换概率矩阵可存储于区块链的节点中。
参阅图3所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的文本匹配方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的文本匹配方法的全部或者部分步骤;或者实现文本匹配装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种文本匹配方法,其特征在于,所述方法包括:
对第一文本进行分词处理得到多种第一分词结果及对第二文本进行分词处理得到多种第二分词结果;
基于预设词性转换概率矩阵计算每种第一分词结果的第一转换概率及每种第二分词结果的第二转换概率;
根据所述第一转换概率从所述多种第一分词结果中获取第一目标分词结果,及根据所述第二转换概率从所述多种第二分词结果中获取第二目标分词结果;
利用特征提取模型对所述第一目标分词结果进行特征提取得到第一分词的第一编码特征,及对所述第二目标分词结果进行特征提取得到第二分词的第二编码特征;
对所述第一文本和所述第二文本进行交互处理,得到所述第一分词的第一交互表示及所述第二分词的第二交互表示;
根据所述第一编码特征、所述第一交互表示、所述第二编码特征及所述第二交互表示计算所述第一文本与所述第二文本之间的匹配度。
2.如权利要求1所述的文本匹配方法,其特征在于,所述对第一文本进行分词处理得到多种第一分词结果包括:
获取所述第一文本的字符数;
根据所述字符数建立网络拓补图;
当所述第一文本中的第i个字符与第j个字符之间的字符能够构成一个词,在所述网络拓补图的第i个顶点和第j个顶点之间建立有向边,得到有向图,所述有向图的有向边对应的词为第i个字符与第j个字符之间的字符;
采用最短图路径搜索算法搜索所述有向图中的最短路径;
根据所述最短路径对应的字符得到第一分词结果。
3.如权利要求1或2所述的文本匹配方法,其特征在于,所述利用特征提取模型对所述第一目标分词结果进行特征提取得到第一分词的第一编码特征,及对所述第二目标分词结果进行特征提取得到第二分词的第二编码特征包括:
提取所述第一分词的第一词向量,及所述第二分词的第二词向量;
根据所述第一分词的第一索引对所述第一词向量进行组合得到第一编码向量,及根据所述第二分词的第二索引对所述第二词向量进行组合得到第二编码向量;
使用特征提取模型对所述第一编码向量进行特征提取得到所述第一分词的第一编码特征,及对所述第二编码向量进行特征提取得到所述第二分词的第二编码特征。
4.如权利要求3所述的文本匹配方法,其特征在于,所述根据所述第一编码特征、所述第一交互表示、所述第二编码特征及所述第二交互表示计算所述第一文本与所述第二文本之间的匹配度包括:
根据所述第一分词的第一交互表示得到第一交互特征,及根据所述第二分词的第二交互表示得到第二交互特征;
将所述第一编码特征和所述第一交互特征进行特征融合得到第一融合特征,将所述第二编码特征和所述第二交互特征进行特征融合得到第二融合特征;
根据所述第一融合特征和所述第二融合特征计算所述第一文本和所述第二文本之间的匹配度。
5.如权利要求4所述的文本匹配方法,其特征在于,所述将所述第一编码特征和所述第一交互特征进行特征融合得到第一融合特征包括:
采用第一计算模型基于所述第一编码特征和所述第一交互特征进行计算,得到第一计算特征;
采用第二计算模型基于所述第一编码特征和所述第一交互特征进行计算,得到第二计算特征;
根据所述第一编码特征、所述第一交互特征、所述第一计算特征及所述第二计算特征进行融合得到第一融合特征。
6.如权利要求1所述的文本匹配方法,其特征在于,所述对所述第一文本和所述第二文本进行交互处理,得到所述第一分词的第一交互表示及所述第二分词的第二交互表示包括:
通过注意力机制将所述第一文本与所述第二文本进行交互处理,所述第一文本中的每个第一分词使用所述第二文本中的所有第二分词进行加权计算得到的第一和值表示,所述第二文本中的每个第二分词使用所述第一文本中的所有第一分词进行加权计算得到的第二和值表示。
7.如权利要求1所述的文本匹配方法,其特征在于,所述方法还包括:
当所述第一文本为搜索文本且所述第二文本为视频文本时,推荐与所述搜索文本的匹配度大于预设第一匹配度阈值的目标视频文本对应的目标视频;
当所述第一文本为问题文本且所述第二文本为标准文本时,显示与所述问题文本的匹配度大于预设第二匹配度阈值的标准文本对应的标准话术。
8.一种文本匹配装置,其特征在于,所述装置包括:
分词处理模块,用于对第一文本进行分词处理得到多种第一分词结果及对第二文本进行分词处理得到多种第二分词结果;
概率计算模块,用于基于预设词性转换概率矩阵计算每种第一分词结果的第一转换概率及每种第二分词结果的第二转换概率;
结果选取模块,用于根据所述第一转换概率从所述多种第一分词结果中获取第一目标分词结果,及根据所述第二转换概率从所述多种第二分词结果中获取第二目标分词结果;
特征提取模块,用于利用特征提取模型对所述第一目标分词结果进行特征提取得到第一分词的第一编码特征,及对所述第二目标分词结果进行特征提取得到第二分词的第二编码特征;
交互处理模块,用于对所述第一文本和所述第二文本进行交互处理,得到所述第一分词的第一交互表示及所述第二分词的第二交互表示;
匹配计算模块,用于根据所述第一编码特征、所述第一交互表示、所述第二编码特征及所述第二交互表示计算所述第一文本与所述第二文本之间的匹配度。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的文本匹配方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的文本匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570486.2A CN113486659B (zh) | 2021-05-25 | 2021-05-25 | 文本匹配方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570486.2A CN113486659B (zh) | 2021-05-25 | 2021-05-25 | 文本匹配方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486659A true CN113486659A (zh) | 2021-10-08 |
CN113486659B CN113486659B (zh) | 2024-03-15 |
Family
ID=77933665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110570486.2A Active CN113486659B (zh) | 2021-05-25 | 2021-05-25 | 文本匹配方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486659B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113987593A (zh) * | 2021-12-28 | 2022-01-28 | 北京妙医佳健康科技集团有限公司 | 一种数据处理方法 |
CN114297338A (zh) * | 2021-12-02 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、存储介质和程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083682A (zh) * | 2019-04-19 | 2019-08-02 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
CN111914067A (zh) * | 2020-08-19 | 2020-11-10 | 苏州思必驰信息科技有限公司 | 中文文本匹配方法及系统 |
CN112085091A (zh) * | 2020-09-07 | 2020-12-15 | 中国平安财产保险股份有限公司 | 基于人工智能的短文本匹配方法、装置、设备及存储介质 |
CN112182166A (zh) * | 2020-10-29 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种文本匹配方法、装置、电子设备及存储介质 |
CN112632292A (zh) * | 2020-12-23 | 2021-04-09 | 深圳壹账通智能科技有限公司 | 业务关键词的提取方法、装置、设备及存储介质 |
-
2021
- 2021-05-25 CN CN202110570486.2A patent/CN113486659B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083682A (zh) * | 2019-04-19 | 2019-08-02 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
CN111914067A (zh) * | 2020-08-19 | 2020-11-10 | 苏州思必驰信息科技有限公司 | 中文文本匹配方法及系统 |
CN112085091A (zh) * | 2020-09-07 | 2020-12-15 | 中国平安财产保险股份有限公司 | 基于人工智能的短文本匹配方法、装置、设备及存储介质 |
CN112182166A (zh) * | 2020-10-29 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种文本匹配方法、装置、电子设备及存储介质 |
CN112632292A (zh) * | 2020-12-23 | 2021-04-09 | 深圳壹账通智能科技有限公司 | 业务关键词的提取方法、装置、设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297338A (zh) * | 2021-12-02 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、存储介质和程序产品 |
CN114297338B (zh) * | 2021-12-02 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、存储介质和程序产品 |
CN113987593A (zh) * | 2021-12-28 | 2022-01-28 | 北京妙医佳健康科技集团有限公司 | 一种数据处理方法 |
CN113987593B (zh) * | 2021-12-28 | 2022-03-15 | 北京妙医佳健康科技集团有限公司 | 一种数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113486659B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN112560496A (zh) | 语义分析模型的训练方法、装置、电子设备及存储介质 | |
CN113239169B (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN112000805A (zh) | 基于预训练模型的文本匹配方法、装置、终端及存储介质 | |
CN112100332A (zh) | 词嵌入表示学习方法及装置、文本召回方法及装置 | |
CN110309282A (zh) | 一种答案确定方法及装置 | |
CN110807566A (zh) | 人工智能模型评测方法、装置、设备及存储介质 | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN111767375A (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
CN113408284A (zh) | 文本处理模型的训练方法、装置、电子设备及存储介质 | |
CN112749556B (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 | |
CN114298121A (zh) | 基于多模态的文本生成方法、模型训练方法和装置 | |
CN113435582B (zh) | 基于句向量预训练模型的文本处理方法及相关设备 | |
CN112906385A (zh) | 文本摘要生成方法、计算机设备及存储介质 | |
CN113486659B (zh) | 文本匹配方法、装置、计算机设备及存储介质 | |
CN113627797A (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN114781402A (zh) | 问诊意图识别方法、装置、电子设备及可读存储介质 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN117876940B (zh) | 视频语言任务执行及其模型训练方法、装置、设备、介质 | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
CN114398902A (zh) | 基于人工智能的中文语义提取方法及相关设备 | |
CN111967253A (zh) | 一种实体消歧方法、装置、计算机设备及存储介质 | |
CN111524043A (zh) | 诉讼风险评估问卷自动生成的方法和装置 | |
Kasai et al. | End-to-end graph-based TAG parsing with neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |